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Kurzfassung 


Die vorliegende Dissertation beschäftigt sich mit der Analyse der Lebens- 
zyklen konvektiver Zellen im Zusammenhang mit den vorherrschenden Um- 
gebungsbedingungen in Deutschland. Dariiber hinaus werden verschiedene 
statistische Vorhersagemodelle zur Abschätzung der Lebensdauer und der 
Größe konvektiver Zellen entwickelt und untersucht. Das Ziel dabei ist es 
herauszufinden, welche Methode für eine Verbesserung von Verfahren zur 
Echtzeit-Vorhersage (Nowcasting) am besten geeignet ist. 

Die Grundlage für diese Untersuchungen bilden Daten des radarbasier- 
ten Zellverfolgungsalgorithmus KONRAD, anhand derer zusammenhängen- 
de Lebenszyklen von isolierter Konvektion (Einzel- und Superzellen) für 
die Sommerhalbjahre 2011 — 2016 erstellt werden. Zusätzlich wird eine 
Vielzahl konvektionsrelevanter Umgebungsvariablen unter Verwendung von 
hochaufgelösten Assimilationsanalysen des numerischen Wettervorhersage- 
modells COSMO-EU berechnet und mit den Lebenszyklen zusammenge- 
führt. Auf Basis dieses kombinierten Datensatzes werden statistische Zusam- 
menhänge zwischen verschiedenen Zellattributen und Umgebungsvariablen 
untersucht. Wie die Analysen zeigen, sind insbesondere Maße der vertika- 
len Windscherung aufgrund ihres Einflusses auf die Organisationsform der 
Konvektion geeignet, zwischen Zellen mit kurzer und langer Lebensdauer zu 
unterscheiden. Eine erhöhte thermische Instabilität der Atmosphäre geht mit 
einem schnelleren anfänglichen Wachstum der Zellen einher, welches wie- 
derum eine größere horizontale Zellausdehnung (Zellfläche) während des Le- 


benszyklus und damit indirekt eine längere Lebensdauer begünstigt. 


Kurzfassung 


Drei unterschiedliche multivariate Methoden (logistische Regression, Ran- 
dom Forest, nicht-linearer Polynomansatz) werden als Modelle fiir die Ab- 
Schätzung der Lebensdauer und der maximalen Zellfläche der konvektiven 
Zellen mit Hilfe eines Ensembleansatzes untersucht. Die Vorhersagegüte der 
Modelle wird evaluiert und die Bedeutung der anfänglichen Zellentwick- 
lung und der Umgebungsvariablen analysiert. Dabei werden Potentiale und 
Grenzen der Methoden aufgezeigt, die verdeutlichen, dass die Wahl eines ge- 
eigneten Verfahrens von der genauen Fragestellung bzw. Anforderung des 
Nowcastings abhängt. Die Untersuchungen legen dar, dass sich die maximale 
Zellfläche der konvektiven Zellen insgesamt besser abschätzen lässt als ihre 
Lebensdauer. Umgebungsvariablen, die den dynamischen und thermodyna- 
mischen Zustand der Atmosphäre charakterisieren, sind insbesondere zu Be- 
ginn der Zellentwicklung für die Abschätzung der zukünftig zu erwartenden 
Entwicklung der Zellen bedeutsam, während mit zunehmendem Zellalter die 


vergangene Zellhistorie immer wichtiger wird. 
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1 Einleitung und wissenschaftliche 
Fragestellungen 


Gewitter zählen in vielen Teilen der Erde zu den bedeutsamen Wetter- 
erscheinungen. Als Folge hochreichender Feuchtkonvektion in der Atmo- 
sphäre beeindrucken sie nicht nur durch ihr imposantes Erscheinungsbild, 
sondern bergen gleichzeitig ein hohes Gefahren- und Schadenpotential. Im 
Vergleich zu der allgemeinen Zirkulation der Atmosphäre und dem gesam- 
ten Wasserkreislauf des Klimasystems transportieren Gewitter als ein Teil 
dieser Systeme zwar deutlich geringere Mengen an Energie und Feuch- 
te (z.B. Israél, 1961; Kraus, 2004; Vallis, 2017), können jedoch auf kurzen 
Zeitskalen von einer bis wenigen Stunden lokal sehr große Energiemengen 
durch Phasenumwandlungen des in der Atmosphäre befindlichen Wasser- 
dampfs freisetzen. Diese können wiederum verschiedene meteorologische 
Phänomene hervorrufen. Neben Blitzentladungen können Gewitter mit weite- 
ren für Mensch, Tier, Eigentum, Infrastruktur und (Land-)Wirtschaft gefähr- 
lichen und schadenträchtigen Begleiterscheinungen wie Starkregen, Hagel, 
Starkwindböen und Tornados einhergehen. 

Generell bedarf es zur Entstehung von hochreichender Konvektion geeigne- 
ter Voraussetzungen, die von vielen Prozessen auf unterschiedlichen Raum- 
und Zeitskalen abhängen. Neben einem ausreichenden Feuchteangebot in der 
unteren Troposphäre sind eine labile Schichtung und ein Mechanismus er- 
forderlich, der vertikal ausgelenkten Luftpaketen einen freien Aufstieg durch 
thermischen Auftrieb ermöglicht (Doswell, 1987; Johns und Doswell, 1992). 
Auf der lokalen bzw. der Mesoskala geschieht dies mittels Hebung, die 
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durch unterschiedliche Mechanismen ausgelöst werden kann wie beispiels- 
weise durch horizontale Strömungskonvergenzen, thermische Windsyste- 
me in orografisch gegliedertem Gelände, atmosphärische Schwerewellen 
oder Querzirkulationen an synoptisch-skaligen Konvergenzlinien und Fron- 
ten (z.B. Markowski und Richardson, 2010). Großräumige Hebung durch 
synoptisch-skalige Wettersysteme hingegen führt durch adiabatische Abküh- 
lung zu einer großflächigen Destabilisierung und Anreicherung von Feuch- 
te in der unteren und mittleren Troposphäre, die den freien Aufstieg von 
Luftpaketen erleichtert (Trapp, 2013). Erreicht die Luft eines aufsteigenden 
Luftpakets Sättigung, kommt es zur Wolkenbildung. Ab dem Niveau freier 
Konvektion erfährt das Luftpaket durch thermischen Auftrieb eine vertika- 
le Beschleunigung, welche zur Ausbildung eines sich vertikal intensivieren- 
den Aufwindbereichs führt, sodass Cumulonimbuswolken mit einer vertika- 
len Mächtigkeit von etwa 10 (mittlere Breiten) bis 16 km (Tropen) entstehen 
können. Erst am Niveau des neutralen Aufstiegs endet die freie Konvektion. 
Dieses Niveau liegt in der Regel in der Höhe der Tropopause, welche durch ei- 
ne Temperaturinversion gekennzeichnet ist und daher einen weiteren thermi- 
schen Auftrieb unterbindet. Im Fall besonders starker Aufwinde kann die Luft 
aufgrund ihrer Trägheit auch geringfügig in die untere Stratosphäre eindrin- 
gen und beispielsweise im Satellitenbild als konvektives Überschießen (Over- 
shooting Top) beobachtet werden. Mit Beginn des fallenden Niederschlags 
entstehen Abwindbereiche, die sehr große negative Vertikalgeschwindigkei- 
ten erreichen können. Aufgrund dieser dynamischen Strukturierung spricht 
man von der Entstehung einer konvektiven Zelle. 

In Mitteleuropa kommt es insbesondere im Sommerhalbjahr von April bis 
September zu teils starken konvektiven Ereignissen (Taszarek et al., 2019). 
Die meisten von ihnen gehen als Gewitter mit Blitzen einher, die elektrische 
Entladungen nach einer Ladungstrennung in den Wolken darstellen, welche 
sich durch Kollisionen der Hydrometeore sowie induktive Prozesse einstellt. 


Eine häufige Begleiterscheinung konvektiver Zellen ist Starkregen. Je stärker 
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und breiter der Aufwindbereich in einer konvektiven Zelle ist, desto effizien- 
ter laufen auch die Kondensation und die niederschlagsbildenden Prozesse ab, 
da im Kernbereich des Aufwinds das Einmischen trockener Umgebungsluft 
eine geringere Rolle spielt (z.B. Doswell et al., 1996; Trapp, 2013). Beson- 
ders langsam ziehende konvektive Zellen oder eine Sequenz mehrerer aufein- 
ander folgender Zellen können zu hohen akkumulierten Niederschlagssum- 
men und hohen Abflussraten in sehr kurzer Zeit führen. Lokale Überschwem- 
mungen und — bei entsprechender topografischer Geländestrukturierung — 
Sturzfluten können die Folge sein. In Deutschland kam es beispielsweise 
während einer zweiwöchigen Periode von Ende Mai bis Anfang Juni 2016 
besonders in der Südhälfte des Lands zu zahlreichen Gewitterereignissen, 
die zu teils schweren Überschwemmungen führten (Piper et al., 2016). Sturz- 
fluten in Braunsbach sowie in Simbach am Inn zerstörten ganze Straßen- 
züge (Bronstert et al., 2017; Hübl, 2017; Vogel et al., 2017). In dieser Peri- 
ode starben insgesamt elf Menschen und es entstand ein Gesamtschaden 
von etwa 2,6 Milliarden Euro (versicherte Schäden 1,2 Milliarden Euro; 
Munich Re, 2017). 

Eine weitere Begleiterscheinung konvektiver Zellen ist Hagel. Dieser ent- 
steht vornehmlich in langlebigen konvektiven Zellen mit einem starken 
Aufwindbereich. Ist eine hohe Konzentration von unterkühlten Wolken- 
tröpfchen und Eispartikeln in der Wolke vorhanden, setzt Hagelbildung 
ein (Pruppacher und Klett, 2010). Je nach Verweildauer der entstehenden Ha- 
gelkörner erreichen diese unterschiedlich große Durchmesser zwischen 0,5 
und mehr als 10cm. In Deutschland fällt Hagel an einem Ort an etwa null 


bis vier Tagen pro Jahr, wobei die höchsten Werte in den Bereichen der 
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Schwäbischen Alb, des Alpenvorlands, des Erzgebirges und des Rhein-Main- 
Gebiets beobachtet werden (Puskeiler et al., 2016; Schmidberger, 2018). Er- 
reichen die Hagelkörner große Durchmesser von mehreren Zentimetern, kön- 
nen Hagelunwetter hohe Schadensummen verursachen, wenn sie in den be- 
troffenen Gebieten viele vulnerable Objekte wie Gebäude, Fahrzeuge, Infra- 
strukturen oder landwirtschaftliche Erzeugnisse beschädigen. Beispielswei- 
se verursachten Superzellen am 27. Juli 2013 in einer Region um Hanno- 
ver und am 28. Juli 2013 in Süddeutschland einen Gesamtschaden von etwa 
3,6 Milliarden Euro (versicherte Schäden 2,8 Milliarden Euro; Tief Andreas; 
SwissRe, 2014; Kunz et al., 2018). Sehr schadenträchtig war auch eine Su- 
perzelle im Großraum München am 10. Juni 2019, die alleine zu Gesamt- 
schäden von rund 1,0 Milliarde Euro führte (versicherte Schäden 0,75 Milli- 
arden Euro; Munich Re, 2020; Wilhelm et al., 2021). 

Starke konvektive Windböen, ebenfalls eine häufige Begleiterschei- 
nung konvektiver Zellen, erreichen nicht selten Sturm- oder Orkanstär- 
ke (z.B. Mohr et al., 2017; Gatzen et al., 2020). Die Abwinde einer konvek- 
tiven Zelle werden in bodennahen Luftschichten horizontal umgelenkt und 
bilden eine Böenfront im Vorfeld einer Zelle. Seltener treten im Fall sehr 
starker Abwinde im Kern einer Zelle lokale, aber meist intensive Fallbö- 
en (Downbursts) auf. Das sogenannte Pfingstunwetter am 9. Juni 2014 bei- 
spielsweise verursachte in Nordrhein-Westfalen an einer ausgeprägten Bö- 
enfront in Form eines Bogenechos (Bow Echos) Orkanböen von lokal mehr 
als 140 kmh! (Tief Ela; Barthlott et al., 2017; Mathias et al., 2017). Sechs 
Menschen starben infolge des Unwetters, und die Gesamtschäden betrugen in 
Deutschland knapp 0,9 Milliarden Euro (versicherte Schäden 0,65 Milliarden 
Euro; Munich Re, 2015). 

Darüber hinaus werden in Deutschland jährlich etwa zwischen 20 und 
60 Tornados beobachtet, die jedoch meist nur geringe Schäden verursa- 
chen (vgl. European Severe Weather Database, ESWD; Dotzek et al., 2009; 
Groenemeijer et al., 2017). Sie entstehen unterhalb einer Gewitterwolke 


im Bereich des Aufwinds durch die Generierung vertikaler Vorticity aus 
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horizontaler Vorticity, die aufgrund der vertikalen Scherung des Horizon- 
talwinds in den bodennahen Schichten der Umgebung einer Zelle präsent 
ist. Vertikale Scherung bezeichnet dabei die Änderung der horizontalen 
Windgeschwindigkeit und -richtung mit der Höhe. Zu den verheerendsten 
Tornados in Deutschland im 20. und 21. Jahrhundert zählt ein Tornado, der 
am 10. Juli 1968 vom französischen Saartal ausgehend bis in die Region 
um Pforzheim zog. Er forderte in Pforzheim zwei Menschenleben und 


verursachte große Schäden an Gebäuden und Infrastrukturen (Nestle, 1969). 


Kommt es zur Ausbildung hochreichender Feuchtkonvektion, hängt die wei- 
tere Entwicklung und damit der Lebenszyklus einer konvektiven Zelle von 
verschiedenen Faktoren ab, die in weiten Teilen gut, teils aber noch un- 
zureichend verstanden sind. Die erste ausführliche Beschreibung des Le- 
benszyklus einer konvektiven Zelle findet sich bei Byers und Braham (1948), 
die diesen mit Hilfe einer Reihe von Beobachtungsdaten anhand verschie- 
dener dynamischer und mikrophysikalischer Eigenschaften der Zellen in 
drei Stufen einteilen: 1) Cumulusstadium, 2) Reifestadium und 3) Dissipa- 
tionsstadium. Die Autoren merkten bereits an, dass die weitere Entwick- 
lung einer Zelle in Verbindung zu ihrem bisherigen Entwicklungsverlauf 
(der Zellhistorie) steht und ihr Fortbestehen durch atmosphärische Umge- 
bungsbedingungen bestimmt werden könnte. Es folgten viele Studien, die 
sich intensiv mit der Beobachtung und der numerischen Modellierung kon- 
vektiver Zellen befassten (z.B. Orville und Sloan, 1970; Wilhelmson, 1974; 
Klemp und Wilhelmson, 1978b; Weisman und Klemp, 1982; Fovell und Tan, 
1998). 

Eine entscheidende Rolle für den Lebenszyklus konvektiver Zellen spielt 
deren Organisationsform (Convective Mode), welche ihrerseits eng mit den 
synoptisch- und mesoskaligen Umgebungsbedingungen in der Atmosphäre 
verbunden ist (z.B. Trapp, 2013). Basierend auf den beobachtbaren, struk- 
turellen Charakteristika wird unterschieden zwischen isolierter Konvektion, 


bestehend aus einer einzelnen Konvektionszelle, multizellulärer Konvektion 
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und Mesoskaligen Konvektiven Systemen (MCS; horizontal tiber mehr als 
100 km ausgedehnte, hochgradig multizellulare Konvektion). Bei der isolier- 
ten Konvektion wird weiterhin zwischen eher kurzlebigen Einzelzellen und 
langlebigen Superzellen unterschieden. Die Grenzen zwischen den Organisa- 
tionsformen sind dabei häufig fließend, da die Entwicklungen sehr dynamisch 
sind. Beispielsweise können zwei oder mehrere konvektive Zellen miteinan- 
der verschmelzen oder eine einzelne Zelle kann sich in zwei Zellen aufteilen. 
Letzteres wird vornehmlich bei Superzellen beobachtet. Während Einzelzel- 
len meist keine allzu starke Entwicklung aufweisen und daher selten mit ex- 
tremen Begleiterscheinungen einhergehen, können Superzellen aufgrund ih- 
res hohen Grades an Organisation über mehrere Stunden bestehen, Zugbah- 
nen mit einer Länge von mehreren hundert Kilometern aufweisen und daher 
große Schäden besonders durch großen Hagel, konvektive Windböen und Tor- 
nados verursachen — wie die oben erwähnten Superzellen in den Jahren 2013 
und 2019. Auch Multizellen und MCS - wie das Pfingstunwetter 2014 — kön- 
nen über viele Stunden bis etwa einen Tag bestehen. Ihre Gefahr geht neben 
der Produktion von kleinem bis mittelgroßem Hagel und der Ausbildung in- 
tensiver Böenfronten besonders von lange anhaltendem, intensivem Starkre- 
gen aus. 

Die Organisationsformen der konvektiven Zellen sind abhängig von 
den Umgebungsbedingungen, die anhand verschiedener meteorologi- 
scher Größen beschrieben werden können. Am wichtigsten ist dabei 
die vertikale Windscherung in der unteren und mittleren Troposphä- 
re (z.B. Weisman und Klemp, 1982; Markowski und Richardson, 2010). 
Aber auch Maße zur Charakterisierung thermischer Instabilität der Atmo- 
sphärenschichtung sind von Relevanz. Mittlerweile gibt es eine Vielzahl 
von Umgebungsvariablen und spezieller konvektiver Indizes, welche 
die verschiedenen Voraussetzungen hochreichender Feuchtkonvektion 
zu quantifizieren versuchen und so eine Vorhersage konvektiver Zellen 
ermöglichen (Ingredients-based Forecasting; z.B. Huntrieser et al., 1997; 
Haklander und van Delden, 2003; Brooks, 2007; Kunz, 2007). Zudem 
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zeigen Studien, dass Prozesse auf der synoptischen Skala und Telekon- 
nektionen die mesoskaligen Umgebungsbedingungen steuern können, die 
für die Gewitterentstehung relevant sind. Piper und Kunz (2017) zeigten 
beispielsweise, dass die Nordatlantische Oszillation über die Variation 
großskaliger Hebungsfelder in Verbindung mit synoptischen Wettersys- 
temen einen Einfluss auf die konvektive Aktivität in Mitteleuropa hat. 
Atmosphärisches Blocking (Rex, 1950) über dem Baltikum begünstigt 
Wetterlagen mit hoher konvektiver Aktivität über West- und Mitteleuropa, 
die in der Regel mit einer eher geringen vertikalen Windscherung einherge- 
hen (Mohr et al., 2019, 2020). 


Trotz großer Fortschritte im Verständnis und in der numerischen Simulati- 
on konvektiver Zellen stellen diese aufgrund ihrer transienten und stochasti- 
schen Natur noch heute eine Herausforderung im Warnmanagement der Wet- 
terdienste dar. Deren Warnungen basieren sowohl auf den Vorhersagen nu- 
merischer Wettervorhersagemodelle (NWV-Modelle) als auch auf aktuellen 
Beobachtungen des Wettergeschehens mittels verschiedener Datenquellen. 
Vor allem Daten von Fernerkundungsmethoden wie Messungen von Nieder- 
schlagsradaren, Satelliten und Blitzdetektionsnetzwerken sowie in situ Mes- 
sungen von Wetterstationen, die nahezu in Echtzeit vorliegen, sind für die 
automatisierten Warnprozesse der Wetterdienste relevant. 

Das Gefahrenpotential einer bevorstehenden Wetterlage kann auf der Basis 
der simulierten Umgebungsbedingungen und konvektiven Entwicklungen aus 
der NWV und daraus abgeleiteten Produkten häufig bereits ein bis drei Tage 
im Voraus erkannt werden, insbesondere wenn dabei auf probabilistische Vor- 
hersagen zurückgegriffen wird (z.B. Gensini und Tippett, 2019). Die Wet- 
terdienste können daher bereits frühzeitig auf eine mögliche Gefahrenlage 
aufmerksam machen. Großflächige Vorabinformationen zur Wetterlage wer- 
den ausgegeben, die aktualisiert werden, sobald sich verlässliche Aussagen 
zum genaueren Ablauf des Wettergeschehens treffen lassen. Handelt es sich 


um eine Wettersituation, die mit gefährlichen oder gar extremen Wetter- und 
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Folgeereignissen verbunden ist, werden dann nahezu in Echtzeit landkreis- 
oder postleitzahlenscharfe Warnungen in verschiedenen Warnstufen fiir die 
erwartete Dauer eines Ereignisses ausgegeben, welche die relevanten Wetter- 
erscheinungen und die damit verbundenen potentiellen Gefahren spezifizieren 
und Verhaltensvorschlage unterbreiten. Im Fall konvektiver Zellen wird zwi- 
schen den unterschiedlichen Begleiterscheinungen Starkregen, Hagel, Wind- 
böen und Tornados unterschieden, wobei abgestufte Hinweise auf die erwar- 
tete Niederschlagsmenge, Hagelkorngröße, Böenstärke bzw. das Auftreten ei- 
nes Tornados gegeben werden. Solche Warnungen werden durch das Nowcas- 
ting der Wettersituation mit entsprechenden Nowcasting-Verfahren ermög- 
licht (Neologismus aus now [jetzt] und forecasting [Vorhersage]). 

Nowcasting-Verfahren machen sich die aktuellen Beobachtungsdaten 
und NWV-Vorhersagen zunutze, um eine Abschätzung der Wetter- und 
Warnlage für die nächsten null bis zwei Stunden zu treffen. Dies ist alleine 
auf der Basis von operationellen Kürzestfristvorhersagen hochaufgelöster 
NWV-Modelle (null bis zwölf Stunden Vorhersagehorizont) bislang nicht 
realisierbar, da diese die neuesten Beobachtungen nicht berücksichtigen. 
Im Fall konvektiver Zellen kommt hinzu, dass selbst Vorhersagen hoch- 
aufgelöster Modelle, die Konvektion explizit simulieren, noch immer 
sehr große Unsicherheiten hinsichtlich des genauen Auftretens dieser 
Ereignisse aufweisen. Nowcasting-Verfahren hingegen können in teils 
hochkomplexen Wettersituationen über automatisierte Methoden, Strukturen 
und Abläufe Vorhersagen (Nowcasts) und Warnvorschläge mit einer höheren 
raum-zeitlichen Genauigkeit ausgeben. Qualifizierte Meteorolog*innen 
prüfen diese Warnvorschläge anhand einer kombinierten Interpretation der 
Beobachtungen, Nowcasting-Produkte und Vorhersagen aus der NWV, 
modifizieren diese gegebenenfalls und geben schließlich entsprechende 
Warnungen aus. Diese Warnungen sind nicht nur für Privatpersonen von 


Bedeutung, sondern auch für Einrichtungen des Katastrophenschutzes 
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sowie Entscheidungsträger in der Energie- und Landwirtschaft und im 


Veranstaltungsmanagement. 


Der Deutsche Wetterdienst (DWD) realisiert seine automatische Unter- 
stützung des Warnprozesses mit dem System AutoWARN (DWD, 2021e). 
Das Nowcasting-Verfahren NowCastMix findet dabei sowohl für das 
Nowcasting sommerlicher als auch winterlicher Warnereignisse Anwen- 
dung (James et al., 2018). NowCastMix kombiniert zur Erstellung eines 
Warnvorschlags NWV-Vorhersagen, Echtzeit-Meldungen von Wettersta- 
tionen, Blitzdaten, Wetterradarprodukte sowie Daten von Verfahren zur 
Erkennung und Verfolgung konvektiver Zellen (Tracking) mit einem 
Fuzzylogik-Ansatz. Im Rahmen des Projekts SINFONY (DWD, 2021c) gibt 
es zurzeit große Bemühungen, das bestehende Nowcasting-Verfahren und 
die Kürzestfristvorhersagen des hochaufgelösten NWV-Modells insbeson- 
dere mit dem Fokus auf sommerlicher Konvektion zu verbessern. Dar- 
über hinaus soll ein integriertes Vorhersagesystem für den Zeitraum der 
Kürzestfrist entstehen, welches durch kombinierte Verfahren die Nowcasts 
und NWV-Kürzestfristvorhersagen homogenisiert und damit eine bruch- 
freie Vorhersage von Wetterereignissen mit Schadenpotential ermöglicht. Da- 
durch erhofft sich der DWD eine Verbesserung der Vorhersagequalität über 
den gesamten Kürzestfristzeitraum. Ähnliche Entwicklungen und Projek- 
te gibt es derzeit auch in weiteren europäischen Ländern (Sun et al., 2014; 
Wapler et al., 2018, Schmid et al., 2019). 

Auf der einen Seite soll in der NWV die Assimilation weiterer Beobach- 
tungsdaten wie beispielsweise Radar-, Blitz- oder Satellitendaten in hoher 
zeitlicher Auflösung die Kürzestfristvorhersagen verbessern. Dazu wird ein 
sogenannter Rapid Update Cycle mit einer stündlichen Assimilation einge- 
führt. Wichtige Bestandteile für das Nowcasting konvektiver Zellen stellen 
auf der anderen Seite verbesserte und neue Verfahren zur Erkennung und 
Verfolgung konvektiver Zellen dar. Der Radarverbund des DWD liefert dazu 
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zwei- und dreidimensionale Messdaten (2D/3D) des Radarreflektivitatsfak- 
tors über ganz Deutschland. Im Jahr 2000 führte der DWD den Zellverfol- 
gungsalgorithmus KONRAD (Konvektionsentwicklung in Radarprodukten) 
ein, der in 2D-Radarprodukten konvektive Zellen erkennt und zeitlich ver- 
folgt. Als Nachfolge von KONRAD wird momentan die Neuentwicklung 
des Systems KONRAD3D präoperationell getestet (Werner, 2020). Dieses 
Verfahren berücksichtigt 3D-Radarmessungen und kann auf neu entwickel- 
te Techniken zur Qualitätssicherung von Radardaten und zur quantitativen 
Niederschlagsabschätzung zurückgreifen sowie eine Methodik zur Hydrome- 
teorklassifikation ausnutzen. 

Zur Weiterentwicklung von KONRAD3D und einer potentiellen Verbes- 
serung der Nowcasts und der Warnvorschläge sind statistische Analysen 
von Daten des bestehenden KONRAD-Verfahrens und anderer Zellver- 
folgungsalgorithmen nützlich (z.B. Wapler, 2017, Zöbisch et al., 2020). 
Die hier gewonnenen Informationen über verschiedene Eigenschaften 
der konvektiven Zellen werden dazu verwendet, ein statistisches Modell 
für den Lebenszyklus der Zellen zu entwickeln (z.B. Feger et al., 2019; 
Zöbisch, 2020; Wapler, 2021). Ein solches Modell ermöglicht eine Ab- 
schätzung der Verlagerung, Intensitätsentwicklung und Lebensdauer 
konvektiver Zellen sowie möglicher Begleiterscheinungen unabhängig von 
der Organisationsform. Bei dieser Abschätzung besteht jedoch aufgrund 
der großen Variabilität der Entwicklungen konvektiver Zellen in den 
unterschiedlichen Organisationsformen weiterhin ein großes Verbesserungs- 
potential. Von besonderem Interesse ist daher im Rahmen der Entwicklung 
integrierter Vorhersageverfahren auch die Möglichkeit, Informationen aus 
den NWV-Vorhersagen und/oder weitere Beobachtungsdaten direkt in einem 
Zellverfolgungsalgorithmus wie KONRAD zu nutzen (Multi-Sensor-/Multi- 
Daten-Ansatz; z.B. Wapler et al., 2015; Josipovic, 2020). Dadurch erhoffen 
sich die Wetterdienste eine verbesserte und probabilistische Abschätzung des 
Lebenszyklus konvektiver Zellen (Wapler et al., 2018; Schmid et al., 2019). 
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Die Zielsetzung der vorliegenden Arbeit besteht darin, aus der Kombi- 
nation von Daten des Zellverfolgungsalgorithmus KONRAD für konvek- 
tive Zellen mit hochaufgelösten Modelldaten des DWD eine kombinier- 
te statistische Analyse des Lebenszyklus konvektiver Zellen im Sinne des 
Multi-Daten-Ansatzes vorzunehmen. Anschließend geht diese Arbeit einen 
Schritt weiter und entwickelt und evaluiert Verfahren, die auf der Basis 
dieser Statistik eine verbesserte Abschätzung bestimmter Eigenschaften des 
Lebenszyklus ermöglichen. Diese Verfahren haben das Potential, das Now- 
casting in einem integrierten Vorhersagesystem durch das Einbeziehen von 
NWV-Vorhersagen in einen Zellverfolgungsalgorithmus zu verbessern. 

Dazu müssen zunächst geeignete Lebenszyklen aus den Rohdaten des Zell- 
verfolgungsalgorithmus generiert werden. Außerdem ist es notwendig, ver- 
schiedene potentiell relevante Umgebungsvariablen und konvektive Indizes 
aus den Modelldaten zu bestimmen. Darauf aufbauend erfolgt die Erstel- 
lung eines kombinierten Datensatzes, der aus Lebenszyklen konvektiver Zel- 
len und einer großen Anzahl von Umgebungsvariablen für sechs Sommer- 
halbjahre (2011 — 2016) über Deutschland und angrenzenden Regionen be- 
steht. Die Lebenszyklen können nachfolgend alleine oder in Kombination 
mit den vorherrschenden Umgebungsbedingungen analysiert werden. Diese 
Analysen identifizieren statistische Zusammenhänge und setzen sie in den 
physikalisch-meteorologischen Kontext. Der kombinierte Datensatz bildet 
zudem die Grundlage für die Anwendung mehrerer Verfahren der Statistik 
und des maschinellen Lernens zur Abschätzung bestimmter Eigenschaften 
der Lebenszyklen. Im Detail wird untersucht, wie gut ein multivariates, logis- 
tisches Regressionsmodell, ein nicht-linearer Polynomansatz und ein Random 
Forest die weitere Lebensdauer und die maximale (horizontale) Zellfläche 
von konvektiven Zellen auf der Basis der Umgebungsvariablen und der Zell- 
historie vorhersagen können. Diese Verfahren liefern unter Anwendung eines 
Ensembleansatzes eine probabilistische Abschätzung dieser beiden Zellattri- 
bute im Sinne einer Klassifikation (z. B. kurze/lange Lebensdauer) oder einer 


Regression (z. B. Lebensdauer in Minuten). 
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Dementsprechend orientieren sich die Untersuchungen der vorliegenden Ar- 


beit an den folgenden fiinf zentralen Fragestellungen: 


(1) Wie gut lassen sich Lebenszyklen konvektiver Zellen aus Daten eines 


Zellverfolgungsalgorithmus extrahieren und wo liegen die Grenzen? 


(2) Welche statistischen Eigenschaften weisen diese Lebenszyklen kon- 


vektiver Zellen in Deutschland auf? 


(3) Unter welchen Umgebungsbedingungen treten konvektive Zellen in 
Deutschland auf und welche statistischen Zusammenhänge lassen sich 


zwischen ihnen erkennen? 


(4) Ist es möglich, den Lebenszyklus konvektiver Zellen im Sinne einer 
probabilistischen Vorhersage auf der Grundlage der statistischen Ana- 


lysen (Punkte 2 und 3) besser abzuschätzen? 


(5) Welches Verfahren und welche Parameter eignen sich am besten zur 


potentiellen Ergänzung bestehender Nowcasting-Verfahren? 


Die vorliegende Arbeit wird neben der Lebenszyklusanalyse konvektiver 
Zellen das Potential für eine Verbesserung der Vorhersage des Lebenszyklus 
durch das Einbeziehen von NWV-Vorhersagen in einen Zellverfolgungs- 
algorithmus aufzeigen. Der Vergleich mehrerer Verfahren aus der Statistik 
und des maschinellen Lernens verdeutlicht, dass die Wahl eines geeigneten 


Verfahrens von der genauen Fragestellung bzw. Anforderung abhängt. 


Der theoretische, physikalisch-meteorologische Hintergrund in Kapitel 2 lei- 
tet in die Thematik hochreichender Feuchtkonvektion und der Lebenszyklen 
unterschiedlicher konvektiver Systeme ein. In Kapitel 3 schließt sich eine 
mathematische Darstellung der verwendeten Verfahren aus der Statistik und 


des maschinellen Lernens an. Hinzu kommen Beschreibungen verschiedener 
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Evaluationsmaße. Kapitel 4 stellt im Anschluss die Datengrundlage vor (Da- 
ten aus dem Zellverfolgungsalgorithmus, Daten aus dem NWV-Modell). Au- 
Derdem werden die Methoden der Datenaufbereitung erläutert, die zur Erstel- 
lung eines kombinierten Datensatzes führen. Kapitel 5 präsentiert verschiede- 
ne Analysen dieses Datensatzes und diskutiert die Zusammenhänge zwischen 
den Lebenszyklen konvektiver Zellen und den vorherrschenden Umgebungs- 
bedingungen. Die Entwicklung und Evaluation der verschiedenen Verfahren 
zur Abschätzung der Lebensdauer und der maximalen Zellfläche konvektiver 
Zellen ist Inhalt von Kapitel 6. Abschließend folgt in Kapitel 7 eine Zusam- 


menfassung und Diskussion der wichtigsten Ergebnisse. 
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thematische Einordnung 


Die Atmosphäre der Erde ist im physikalischen Sinne ein Fluid, welches so- 
wohl dynamischen Einflüssen aufgrund des Wirkens unterschiedlicher Kräfte 
als auch thermodynamischen Modifikationen aufgrund von Energieumwand- 
lungen ausgesetzt ist (Vallis, 2017). Die kausalen Wirkungsketten atmosphä- 
rischer Prozesse weisen zudem eine Interaktion von nicht-linearen dynami- 
schen und thermodynamischen Vorgängen auf, sodass diese einer gemein- 
samen Beschreibung bedürfen, wenn man alle Komponenten des Systems 
Atmosphäre berücksichtigen möchte. Um die Wirkung der komplexen atmo- 
sphärischen Prozesse zu verstehen, ist eine grundlegende Betrachtungsweise 
einzelner physikalischer Prinzipien unerlässlich. Die nachfolgenden theore- 
tischen Herleitungen und Erläuterungen fokussieren sich dabei auf thermo- 
dynamische Grundlagen, die für die Entstehung von hochreichender Feucht- 
konvektion relevant sind (Kapitel 2.1). Welche verschiedenen Gewittersyste- 
me beobachtet werden und worin sich diese hinsichtlich verschiedener Cha- 
rakteristika unterscheiden, legt Kapitel 2.2 dar. Dabei werden einige atmo- 
sphärische Variablen vorgestellt, mit denen sich die atmosphärischen Umge- 
bungsbedingungen hinsichtlich der bevorzugten Entstehung unterschiedlicher 
konvektiver Systeme beschreiben lassen. Kapitel 2.3 stellt anschließend wei- 
tere relevante Umgebungsvariablen und spezielle Kenngrößen vor, die ver- 
schiedene dynamische und thermodynamische Aspekte quantifizieren, wäh- 
rend Kapitel 2.4 abschließend eine Brücke zwischen den meteorologischen 
Grundlagen und den Charakteristika der Lebenszyklen konvektiver Systeme 


schlägt. 
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2.1 Entstehungsmechanismen hochreichender 
Konvektion 


2.1.1 Adiabatische Zustandsänderungen in der Atmosphäre 


Ein thermodynamisches System ist ein räumlich abgrenzbares System mit 
physikalischen Eigenschaften, die durch die Gesetze der Thermodynamik be- 
schrieben werden können. Ein solches System ist durch seine Zustandsgrö- 
ßen charakterisiert, welche sowohl extensiv als auch intensiv sein können. 
Die Werte von extensiven Zustandsvariablen sind proportional zur Größe des 
Systems, welche durch die Skalierungsmaße Teilchenanzahl N oder Masse m 
beschrieben wird. Die Werte von intensiven Zustandsvariablen hingegen sind 
unabhängig von N bzw. m. Zu den extensiven Zustandsgrößen zählen bei- 
spielsweise die Entropie S, das Volumen V oder die innere Energie U, zu den 
intensiven Zustandsgrößen der Druck p und die Temperatur T des Systems. 
Im thermodynamischen Gleichgewicht, einem Zustand ohne makroskopische 
Energie- und Massenflüsse, kann U als eine Funktion der weiteren extensiven 
Eigenschaften ausgedrückt werden (z.B. Vallis, 2017). Dividiert man diese 
Eigenschaften, wie in der Fluiddynamik üblich, durch die Masse des Fluids, 


so lässt sich ein funktionaler Zusammenhang wie folgt formulieren: 
u=u(0,s,b). (2.1) 


Darin steht o = Vm~! = p7! für das spezifische Volumen, p kennzeichnet 
die Dichte und s die spezifische Entropie des Fluids. Die Variable b parame- 
trisiert die spezifischen Anteile der Bestandteile des Fluids. Alle Variablen 
stellen nun intensive Eigenschaften des Systems dar. Im Fall einer feuchten, 
ungesättigten Atmosphäre mit den Komponenten trockene Luft und Wasser- 
dampf existieren laut der Gibbs’schen Phasenregel für ein zweikomponenti- 
ges (K = 2), einphasiges (P = 1) System F = K — P +2 = 3 Freiheitsgrade, 


welche die Anzahl der unabhängigen intensiven Eigenschaften beschreiben. 
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Die Parametrisierung b kann hier als Anteil der trockenen Luft oder des Was- 
serdampfs an der Gesamtzahl von Molekiilen verstanden werden, der jeweils 
andere Anteil ergibt sich zwangsläufig aus dem ersten. Im Fall einer trockenen 
Atmosphäre ist wegen K = 1 die Anzahl der Freiheitsgrade F = 2. 

Anderungen des Zustands eines thermodynamischen Systems und damit auch 
der Atmosphäre folgen dem physikalischen Prinzip der Energieerhaltung, 
welches im Ersten Hauptsatz der Thermodynamik Ausdruck findet. Für ein 
geschlossenes System, dessen Zusammensetzung sich während der thermo- 


dynamischen Prozessführung nicht ändert, lautet dieser: 
du=ög+öw. (2.2) 


Das Hinzu- bzw. Abführen von Wärme ôq sowie das Verrichten von Arbeit 
am System ôw können demnach zu einer Änderung der inneren Energie 
du führen. Das vorangestellte d kennzeichnet ein vollständiges Differential, 
während 6 ein wegabhängiges Differential darstellt. Die verrichtete Arbeit 
stellt die Volumenarbeit am System dar, sodass öw = —pda gilt. Mit der 
Definition der spezifischen Enthalpie des Systems h = u + pa lässt sich 
Gleichung (2.2) unter Anwendung der Produktregel daher über 


dh = ôq + adp (2.3) 


darstellen. 

Adiabatische Zustandsänderungen in einem geschlossenen System beschrei- 
ben Änderungen ohne Zu- oder Abfuhr von Wärme, d.h. ôq = 0. Sie 
stellen eine oftmals verwendete Näherung für das meteorologische Kon- 
zept eines gehobenen Luftpakets dar, welches zur Beschreibung des Me- 
chanismus von Konvektion Anwendung findet (s.u.; z.B. Bjerknes, 1938; 
Markowski und Richardson, 2010). In einer trockenen Atmosphäre gilt un- 


ter der berechtigten Annahme, dass sich die Luft in der Atmosphäre wie ein 
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ideales Gas verhält, folgende Zustandsgleichung: 
pa=pada=RyT . (2.4) 


Der Index d (dry) charakterisiert fortan Größen, die sich auf trockene Luft be- 
ziehen, wobei im Fall einer trockenen Atmosphäre der Partialdruck trockener 
Luft gleich dem Atmosphärendruck ist: pa = p. In Gleichung (2.4) kenn- 
zeichnet Ru = 287,05 Ikg-! KI die Gaskonstante für trockene Luft. Hier 
wird deutlich, dass ein Zustand eindeutig durch zwei der drei Zustandsgrö- 
ßen Druck, Temperatur und spezifisches Volumen gegeben ist. Nach Joules 
zweitem Gesetz (z. B. Tsonis, 2007) ist die innere Energie allein von der Tem- 
peratur abhängig, d.h. u = u(T) und somit gilt auch für die Enthalpie unter 
Verwendung der Zustandsgleichung (2.4): h = u(T) +RaT = h(T). Mit der 


spezifischen Wärmekapazität bei konstantem Druck 


oh dh 
Cp = E => dT ; (2.5) 


wobei cp = 1004,5 Jkg~!K~! gilt, folgt daher aus Gleichung (2.3) 
cpdT = ôq + &dp . (2.6) 


Ein trockenadiabatischer Prozess wird demnach durch cpdT = odp oder mit 
Hilfe der Zustandsgleichung (2.4) und der Abkürzung K = Rac,’ umformu- 
liert über 

dln(T) = xdln(p) (2.7) 


beschrieben. Die Einführung des Adiabatenkoeffizienten y = ije" mit der 


spezifischen Wärmekapazität bei konstantem Volumen 


du du 
Cy = (=) -3 = Cp Ra (2.8) 
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führt auf x = (y— 1) y~!. Die unbestimmte Integration von Gleichung (2.7) 
liefert schlieBlich eine der bekannten Poisson-Gleichungen fiir adiabatische 
Prozesse: 

eeu = const. (2.9) 


Die Definition der potentiellen Temperatur @ erhält man als eine Realisie- 
rung dieser Poisson-Gleichung durch die analytische Integration von Glei- 
chung (2.7) von einem Referenzniveau po bis zu einem unbestimmten Druck- 


niveau p: 


O(T,p) =T (po) =T (2) l (2.10) 


Üblicherweise wird po = 1000 hPa verwendet. Die potentielle Temperatur 
OUT. pi kann demnach als die Temperatur verstanden werden, die ein 
trockenes Luftpaket auf einem Druckniveau p mit der Temperatur T 
annehmen würde, wenn es trockenadiabatisch auf das Druckniveau po 
absinken würde. Daher ist OUT, p) invariant unter trockenadiabatischen 


Zustandsänderungen. 


Im Fall feuchter, ungesättigter Luft und unter der Annahme, dass sich der in 
der Atmosphäre vorhandene Wasserdampf wie ein ideales Gas verhält, lässt 
sich die Zustandsgleichung (2.4) gemäß des Dalton’schen Gesetzes leicht 
erweitern, da sich der Druck der Atmosphäre p als Summe der Partialdrücke 
der beiden Gase ergibt (z. B. Markowski und Richardson, 2010): 


P = Pa + Pv = pa +e = (Rapa +Rvp»)T . (2.11) 


Darin kennzeichnet p, den Wasserdampfpartialdruck, der in der Literatur 
meist mit e bezeichnet wird. Außerdem stellt R, = 461,51 Jkg7! K7! die 


Gaskonstante von Wasserdampf und p, dessen Dichte dar (Index v: vapor). 
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Analog zur Herleitung von Gleichung (2.7) lasst sich fiir einen trockenadia- 


batischen Prozess feuchter Luft ohne Phasenumwandlungen 


din(T) = ,(r,o)din(p) (2.12) 


! und dem konstanten Mi- 


mit Ku(r,.0) = (Ra RS ryoRy)(Cp,ad Ss Far) 
schungsverhältnis von Wasserdampf zu trockener Luft ryo = Pee schrei- 
ben (Manzato und Morgan, 2003). Die spezifische Wärmekapazität von Was- 


serdampf beträgt cp, = 1845,6J kg! K!. Die entsprechende Invariante ist 


Ku (ryo) 
ser (2) (2.13) 


Häufig wird zur Vermeidung der Abhängigkeit von r,, auf ein alternatives 
Temperaturmaß zurückgegriffen, das es im Fall einer feuchten, ungesättigten 
Atmosphäre ermöglicht, formal mit einer trockenen Atmosphäre zu rechnen. 


Die sogenannte virtuelle Temperatur 


R 
EE v WA 
Ges Br (14000 ` ) ST (1+0,608r,) (2.14 


(+r (Eé 


stellt die "Temperatur dar, die ein trockenes Luftpaket haben miisste, um die- 
selbe Dichte wie feuchte Luft bei gleichem Druck zu haben. Die entsprechen- 


de Zustandsgleichung fiir ein ideales Gas lautet 
pa = RaTv (2.15) 


und die virtuelle potentielle Temperatur @y ergibt sich analog zu Glei- 
chung (2.10) über 


oy (Ty,p) = Ty (2) e (2.16) 
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Im Fall feuchter, gesättigter Luft, in der Phasenumwandlungen auftreten, ge- 
staltet sich die Bestimmung einer Invarianten deutlich schwieriger. Es sei 
zunächst ein Prozess betrachtet, bei dem die frei werdende latente Wärme 
aus der Kondensation des Wasserdampfs in einem Luftpaket komplett zu 
dessen Heizung verwendet wird (Holton, 2004; Vallis, 2017). Da kein Wär- 
meaustausch mit der Umgebung stattfindet, gilt weiterhin ôq = 0. In Anleh- 
nung an Simpson (1978), Holton (2004), Markowski und Richardson (2010) 
und Vallis (2017) kann Gleichung (2.7) jedoch durch eine interne Heizrate 
ögin = —T d(l,(T)r,s T7!) modifiziert werden, um die Kondensationspro- 


zesse im Luftpaket näherungsweise abzubilden: 
K 
din(T) kKdlnipal + ——Ögin . (2.17) 
RaT 


Dabei steht /,(T) für die spezifische Verdampfungswärme von Wasser, 
die für typische Temperaturen in der Atmosphäre zwischen 0 = —50 
und 30°C um weniger als 10% variiert. Empirisch bestimmt wur- 
de etwa 1,(0 = 0°C) ~ 2,501 - 10°Jkg=!. In ögin kennzeichnet 
r,s(p,T) das Sättigungsmischungsverhältnis von Wasserdampf beim ent- 
sprechenden Sättigungsdampfdruck e,(T), welcher den Wasserdampfparti- 
aldruck bei Sättigung der Luft angibt und über die Clausius-Clapeyron- 
Gleichung (z. B. Seinfeld und Pandis, 2006) beschrieben werden kann: 


de,(T) _ 1,(T)es(T) 
dT R,T? 


(2.18) 


Die Beziehung zwischen dem Mischungsverhältnis und dem entsprechenden 
Wasserdampfpartialdruck e ergibt sich durch die Kombination der Zustands- 
gleichungen für trockene (2.4) und feuchte, ungesättigte Luft (2.11): 


Rae,(T) 


_ Py = Rae 
Ry(p—es(T)) © 


P= = => Pap) 
” pa Rp w(T,p) 


(2.19) 
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Gleichung (2.17) ist identisch mit 


din(6;) ==— a (+=) , (2.20) 


Cyd 


wobei 9, über Gleichung (2.10) mit der Ersetzung p — pa gegeben ist. 
Durch Integration vom Ausgangszustand (0,,r,,,7) bis zu einem Zustand, 
in dem die Luft nahezu keinen Wasserdampf mehr enthält (r,s œ~ 0), ergibt 
sich schließlich die Invariante 


l WI T, 
6.(T,p,e) = 9g exp Ga 
Cp,dT 


K ba dP 
= E exp (eer (2.21) 
p-e RaT 


welche als äquivalentpotentielle Temperatur bezeichnet wird. Da p > e ist, 
wird häufig p — e ~ p gesetzt, sodass sich Gleichung (2.21) zu 8e = 0e (T, p) 
vereinfacht. 

Simpson (1978) und Markowski und Richardson (2010) merken an, dass für 
einen reversiblen Prozess, in dem das kondensierte Wasser weiterhin im 
Luftpaket enthalten ist, in Gleichung (2.17) x durch &,(r,,0) = Ra(cpa + 
Bonert? ersetzt werden sollte, um den Effekt des Wasserdampfs und des 
flüssigen Wassers auf die spezifische Wärmekapazität des Luftpakets zu be- 
rücksichtigen. Dabei ist rwo das konstante Mischungsverhältnis von Wasser- 
dampf und flüssigem Wasser zu trockener Luft und cp; = 4218 Jkg-!K7! 
die spezifische Wärmekapazität von flüssigem Wasser. Damit folgt für die 
äquivalentpotentielle Temperatur unter der Annahme eines reversiblen Pro- 


zesses durch eine analoge Rechnung 


m yr exp (et eee 


(r) 
oT, pena) =T 
e ( p,e Tw) (> Eë 


) , (2.22) 
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of (T, P,€,r,,o) ist folglich näherungsweise invariant unter feuchtadiabati- 
schen Zustandsänderungen ohne Massenänderungen, d.h. ohne ausfallenden 
Niederschlag. 

Für einen irreversiblen Prozess in feuchter, gesättigter Luft, bei dem kon- 
densiertes flüssiges Wasser instantan vollständig aus einem Luftpaket ent- 
fernt wird, ist die adiabatische Annahme ôq = 0 nicht mehr gerechtfertigt. 
Dieser Prozess, welcher allgemein als pseudoadiabatisch bezeichnet wird, 
lässt sich in zwei Stufen vorstellen: Zunächst erfolgt eine irreversible, feucht- 
adiabatische Expansion, die zur Kondensation führt. Anschließend wird dem 
Luftpaket das kondensierte Wasser unter Erhalt von Temperatur und Druck 
entzogen, was die Entropie reduziert. Simpson (1978) erläutert, dass in Glei- 
chung (2.17) in einem solchen Prozess K durch K;(rv s) = Ra(cpa+ruscp, 1) | 


ersetzt werden muss, sodass gilt: 


din(T) = x;(r,,)din(p4) + Sit Ögin (2.23) 
RI 
SIE, LAT it 
<> din(@,) = u a ze) DEEN l (2.24) 
d 


Da aber rys = rus(T, p) ist, lässt sich der letzte Term in Gleichung (2.24) nur 
aufwändig numerisch integrieren. Eine sehr gute Näherungsformel für die 


Invariante entwickelte Bolton (1980): 
_ 9) 
Ops Re Oe (T, p,e) 


8 (ITT 
D 


-exp (mos a) r,(p,e)[l+asr,(p,e)]| - (2.25) 


1 


Darin erscheinen mehrere numerische Konstanten a; und ein empirisch be- 
stimmter Zusammenhang zwischen der ungefähren Temperatur in der Höhe 


des Hebungskondensationsniveaus Tyxn(T,e) und der Temperatur T sowie 
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dem Wasserdampfpartialdruck e (s. Kapitel 2.1.2). af? wird auch als pseu- 
dopotentielle Temperatur 0ps bezeichnet und stellt das oftmals verwendete 
Temperaturmaß zur Beschreibung feuchtadiabatischer Prozesse dar, so auch 


in der vorliegenden Arbeit. 


2.1.2 Vertikalbewegungen in der Atmosphäre 


Vertikalbeschleunigung und Auftrieb 


Die dynamischen und thermodynamischen Prozesse der Atmosphäre können 
durch ein gekoppeltes, nicht-lineares Gleichungssystem beschrieben werden, 
die Ausdruck der Impuls-, Massen- und Energieerhaltung in einem rotieren- 
den, geschlossenen System sind. Die entsprechenden prognostischen Varia- 
blen hängen dabei von dem betrachteten Ort x und dem Zeitpunkt r ab, sodass 
die totale Zeitableitung durch die materielle Ableitung 


= NM 22 
dt ? Dr a SCH 


mit dem Standardskalarprodukt (-) und dem Nabla-Operator (V) ausgedriickt 


werden kann: 


D 
p =—Vptpe!—2pQxv—pV-F (2.27) 
Dt KE 
a) (2) (3) (4) 
Dp 
—=-pV- 2.2 
Dr DY (2.28) 
D0 pOK Dq 
D~ p De S (2.29) 


Darin kennzeichnet das Kreuz (x) das Kreuzprodukt zweier Vektoren. Diese 
fiinf Gleichungen stellen zusammen mit der Zustandsgleichung fiir ein ideales 


Gas (2.4) ein Gleichungssystem fiir eine trockene Atmosphäre mit folgenden 
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prognostischen atmosphärischen Variablen dar: Windvektor v = u + we;, be- 
stehend aus dem Horizontalwind u und der vertikalen Komponente w, Luft- 
druck p und potentielle Temperatur @. Die erste Gleichung ist die Impuls- 
gleichung in der Form einer Bilanzgleichung, welche sich durch das Wirken 
(1) der Druckgradientkraft, (2) der scheinbaren Erdanziehungskraft! , (3) der 
Corioliskraft und (4) Reibungskräften ergibt. Die zweite Gleichung ist die 
(Massen-)Kontinuitätsgleichung und die dritte die thermodynamische Ener- 
giegleichung, welche sich direkt aus dem Ersten Hauptsatz der Thermody- 
namik ergibt, wie beispielsweise aus Gleichung (2.20) mit einer allgemei- 
nen Heizrate ôq statt 6g = —Td(lyrysT7!). Für eine Atmosphäre mit Wasser 
in allen Aggregatzuständen erfolgt eine Erweiterung dieses Gleichungssatzes 
um weitere Terme in den obigen Gleichungen sowie um Tendenzgleichungen 
für den Wasserdampfgehalt (spezifische Feuchte), den spezifischen Flüssig- 
wassergehalt (Wolken- und Regentropfen) und den spezifischen Gehalt ge- 
frorenen Wassers (Eis, Graupel, Schnee), welche die entsprechenden Quel- 
len und Senken sowie Diffusionsprozesse berücksichtigen. Im obigen Glei- 
chungssystem steht Q für den konstanten Vektor der Winkelgeschwindigkeit 
der Erdrotation und 2 für den viskosen Spannungstensor (z. B. Vallis, 2017). 
Zur Beschreibung von Vertikalbewegungen, wie beispielsweise denen von 
aufsteigenden Luftpaketen, dient die vertikale Komponente der Impulsglei- 
chung (2.27) unter Vernachlässigung von Effekten durch die Corioliskraft 
und Reibungskräfte, mit der Näherung g’ x g ~ —g e, mit g ~ 9,81 ms“! 
für mittlere Breiten (Breitengrad @ = 45°): 
Dw dp 


P or ae PE (2.30) 


! Die scheinbare Erdbeschleunigung g’ berücksichtigt sowohl die Geoidform der Erde als auch 
die aufgrund der Erdrotation wirkende Zentrifugalkraft. 
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Eine sehr häufig verwendete Beschreibung der Atmosphäre zerlegt die 
Beiträge der Zustandsvariablen in einen horizontal homogenen Grundzu- 
stand (p(z), p (z)) und Fluktuationen (p’ (x,t), p’(x,t)) um diesen herum, auch 
Störungen genannt. Für den Grundzustand wird zudem Hydrostasie ange- 
nommen, d.h. 

or =-Pg, (2.31) 


sodass aus der Impulsgleichung (2.30) folgt: 


+B. (2.32) 


Darin steht B = —gp’p~! fiir den thermischen Auftrieb (Buoyancy). Im 
Allgemeinen ist p’ < p, sodass in feuchter, ungesättigter Luft gilt: 


' 2.15) ( Ty ' 
PER S (2-2) (2.33) 
Ty P 

Zur Berücksichtigung von Hydrometeoren in der flüssigen und fes- 
ten Phase im Fall gesättigter Luft ist der thermische Auftrieb nach 
Markowski und Richardson (2010) auf 


pab LE (2.34) 
D Ty P 
zu erweitern, wobei rp für das Mischungsverhältnis der Hydrometeore im Ge- 
samten steht. Diese wirken aufgrund ihres Gewichts dem Auftrieb entgegen. 
Markowski und Richardson (2010) und Trapp (2013) zeigen darüber hinaus 
anhand der Impulsgleichung (2.27) unter einigen geeigneten Annahmen, dass 
der vertikale Gradient der Druckstörungen in einen durch den Auftrieb be- 
dingten (p},) und einen dynamisch hervorgerufenen Anteil ( Pin) zerlegt wer- 


den kann: 


D LOR in 1 Op! 
es + (8 Ps (2.35) 


Dt p az p az 
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Dabei hängt o, direkt mit dem vertikalen Gradienten des Auftriebs B zusam- 
men: Oberhalb (unterhalb) eines aufsteigenden Luftpakets führt ein negati- 
ver (positiver) Gradient zu einer positiven (negativen) Druckanomalie, die 
als Verdrängen (Nachströmen) der Luft der Umgebung interpretiert werden 
kann. Dadurch induziert das Luftpaket jedoch eine zusätzliche, abwärts ge- 
richtete Druckgradientkraft, die dem thermischen Auftrieb B entgegenwirkt. 
Diese ist umso stärker, je horizontal ausgedehnter das Luftpaket ist. Das Ein- 
mischen (Entrainment) von (trockenerer, kälterer) Luft aus der Umgebung in 
das Luftpaket trägt ebenfalls zur Verringerung des thermischen Auftriebs B 
bei (z. B. Lohmann et al., 2016). Der Beitrag von Geng äußert sich in verschie- 
denartigen Deformationen des Luftpakets durch das Strömungsfeld v. 


Theorie eines gehobenen Luftpakets 


Anhand dieser Beschreibung wird bereits deutlich, dass für ein aufsteigendes 
Luftpaket in der Atmosphäre die oben getroffene Annahme eines adiabati- 
schen Prozesses, in dem weder Energie- noch Massenaustausch mit der Um- 
gebung stattfindet, auch ohne Phasenumwandlungsprozesse von Wasser eine 
starke Vereinfachung der Realität darstellt. In der klassischen, konzeptionel- 
len Theorie eines gehobenen Luftpakets (Lifted Parcel Theory), die in der Pra- 
xis für vereinfachte numerische Simulationen von hochreichender Feuchtkon- 
vektion, Stabilitätsbetrachtungen (s. u.) und die Berechnung konvektiver Indi- 
zes (s. Kapitel 2.3) Anwendung findet, ist Adiabasie dennoch eine der zentra- 
len Annahmen (z. B. Bjerknes, 1938; Holton, 2004). Insbesondere stellt diese 
Theorie lediglich ein eindimensionales Modell eines lokalen Luftpakets oh- 
ne horizontale Ausdehnung dar. Zu den weiteren Annahmen dieser Theorie 
zählt, dass (1) die feste Phase von Wasser nicht auftritt, d.h. keine Gefrier- 
prozesse stattfinden, dass (2) der Effekt der Hydrometeore auf den Auftrieb 
vernachlässigbar ist und dass (3) der Druck des Luftpakets (Index P) zu jedem 
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Zeitpunkt dem der Umgebung (Index U) entspricht: pp = py = p. Wie der 
Aufstieg des Luftpakets erzwungen wird, spielt fiir die Theorie eines gehobe- 
nen Luftpakets keine Rolle (vgl. Kapitel 1). 

In der Praxis erfolgt die Berechnung einer trockenadiabatisch-pseudoadia- 
batischen Aufstiegskurve aus dem Anfangszustand eines Luftpakets, der 
durch den Zustand (Tp,pp,ep) = (Tpa,pra,erı) gegeben ist (Abbil- 
dung 2.1). Die Aufstiegskurve stellt die Temperatur des Luftpakets Tp im 
jeweiligen Druckniveau dar. Zu Beginn steigt das Luftpaket trockenadia- 
batisch auf, d.h. mit Op = Opa = const. und ryp = rypa = const., bis es 
eine Höhe erreicht, ab der Sättigung der Luft bezüglich des Wasserdampfs 
eintritt (r,p = rp = rs). Der Stern (*) kennzeichne Werte in diesem 
Niveau. Danach erfolgt der Aufstieg des Luftpakets pseudoadiabatisch, 
d.h. mit Ops,p = 85, p = const. Dazu wird zunächst 6), p mit den Werten 
des Luftpakets Tp, p* und r, p = fue mittels der Formel nach Bolton (1980), 
Gleichung (2.25), bestimmt. Anschließend muss die Temperatur des 
Pakets für die weiteren Druckniveaus des Aufstiegs Tp(p < p*) mittels 
Gleichung (2.25) mit den festen Werten für Ge p und rys bestimmt werden. 
Es gilt dort Tyxn(Tp,es) = Tp, sodass sich die Gleichung nicht analytisch 
nach Tp umformen lässt. Daher erfolgt die Bestimmung der Temperaturwerte 
iterativ. Entlang der Aufstiegskurve sind einige besondere Niveaus zu 


erwähnen: 


Ausgangsniveau 

Dieses Niveau charakterisiert die Höhe, in welcher der Anfangszustand 
des Luftpakets zu bestimmen ist. Die einfachste Methode nimmt an, dass 
das Luftpaket quasi vom Boden aufsteigt, sodass daher die Werte für 
(oa, PpA,epa) gewählt werden, die dem Boden am nächsten liegen. Diese 


entsprechen bei Radiosondenaufstiegen den Werten der ersten Messung? 


2 Da Radiosonden den Druck, die Temperatur und die relative Luftfeuchtigkeit RH messen, 
muss der Dampfdruck zunächst über e = RHe,(T) bestimmt werden. 
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Abbildung 2.1: Thermodynamisches Skew-T-logp-Diagramm eines Radiosondenaufstiegs (Lin- 
denberg, WMO: 10393; 11. Juni 2019, 12 UTC). Das Vertikalprofil der Temperatur der Um- 
gebung Ty ist durch die rote Kurve, das des Taupunkts ty durch die grüne Kurve dar- 
gestellt. Die blau gestrichelte Kurve markiert den Verlauf der Temperatur Tp eines fikti- 
ven, trockenadiabatisch-pseudoadiabatischen Aufstiegs eines Luftpakets. Die orangefarbene 
und die violette Kurve stellen jeweils die korrigierten virtuellen Temperaturprofile Typ und 
Tyu dar. Die Werte für das Wasserdampfsättigungsmischungsverhältnis rys sind in gkg! 
angegeben. Trockenadiabaten repräsentieren OUT, pl = const., (Sättigungs-)Pseudoadiabaten 
8ps(T, p.1y,s) = const. Nach Wilhelm et al. (2021). 
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oder den Werten der entsprechenden Bodenmessstation. In numerischen 
Modellen werden meist die Werte in der Mitte der untersten Modellschicht 
verwendet. Die zweite Methode bestimmt in einer sogenannten (trockena- 
diabatischen) Mischungsschicht (Mixed Layer; ML) mit einer Dicke von 
meist 50 bis 100 hPa tiber Grund dichtegewichtete Mittelwerte der Variablen. 
Craven et al. (2002) zeigten, dass ein auf diese Weise definiertes Luftpaket, 
welches in der Mitte der ML startet, für die Atmosphäre repräsentativer 
ist als eines, das auf den bodennahen Werten beruht. Die dritte Methode 
bestimmt in einer Schicht mit einer Dicke von meist 250 bis 300 hPa über 
Grund für verschiedene Niveaus oder Teilschichten die pseudopotentielle 
Temperatur (Manzato und Morgan, 2003). Dort, wo der höchste Wert 
gefunden wird, liegt das Ausgangsniveau für das — wörtlich übersetzt — 
instabilste Luftpaket (Most Unstable; MU). 


Sattigungsniveau/Kondensationsniveau 

Das zuvor mit dem Stern (*) gekennzeichnete Niveau, das die Höhe 
darstellt, in dem ein aufsteigendes Luftpaket zum ersten Mal Sättigung 
erreicht, wird im Fall erzwungener, dynamischer Hebung Hebungs- 
kondensationsniveau (HKN), im Fall thermischer Hebung Cumulus- 
Kondensationsniveau (KKN) genannt. Hier wird angenommen, dass 


instantan Kondensation und damit Wolkenbildung einsetzt. 


Niveau freier Konvektion 

Das unkorrigierte Niveau freier Konvektion (NFK) ist in der Höhe zu finden, 
in der die Aufstiegskurve die Kurve der Umgebungstemperatur 77, zum ersten 
Mal schneidet. Oberhalb des unkorrigierten NFK ist Tp > Ty. Freie Konvekti- 


on bezeichnet in der Theorie eines gehobenen Luftpakets den Umstand, dass 
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ein aufsteigendes Luftpaket einen positiven thermischen Auftrieb B > 0 re- 
lativ zu seiner Umgebung? besitzt, wobei aufgrund der Annahme pp = py 
keine Druckstörungen bzw. vertikale Gradienten in den Gleichungen (2.33) 
und (2.35) auftreten, die zur Vertikalbeschleunigung des Luftpakets beitragen 
könnten (z. B. Doswell und Markowski, 2004): 


Dw Ty p — Tyu 
— y Brpr = — ag ` (2.36) 
( Dt a Tun 


Aufgrund dieser Definition des thermischen Auftriebs ist klar, dass zur 
Bestimmung des korrigierten NFK die Temperaturprofile des Luftpakets und 
der Umgebung a posteriori tiber Gleichung (2.14) in Profile der entsprechen- 
den virtuellen Temperatur Ty transformiert werden müssen (Abbildung 2.1; 
Doswell und Rasmussen, 1994). Das korrigierte NFK ist folglich in der Höhe 
zu finden, in der die Ty p-Kurve die Ty y-Kurve zum ersten Mal schneidet. 
Diese Korrektur berücksichtigt jedoch nur den Effekt von Wasserdampf auf 
die Dichte des Luftpakets (vgl. Kapitel 2.1.1). Der Effekt flüssigen Wassers 
oberhalb des HKN wird nicht korrigiert. Da das Luftpaket oberhalb des 
HKN gesättigt ist, ist die Korrektur der Aufstiegskurve Tp dort größer als 
die Korrektur des Temperaturprofils der meist ungesättigten Umgebung Ty. 
Doswell und Rasmussen (1994) merken an, dass die Entscheidung, wie man 
das Luftpaket und das Ausgangsniveau festlegt (s.o.), den Effekt dieser 


Korrektur überwiegen kann. 


Niveau des neutralen Aufstiegs 

Dieses Niveau charakterisiert die Höhe, ab der wieder Tp < Ty 
bzw. Typ < Ty gilt. Meist liegt es in der oberen Troposphäre, in der das 
Wasserdampfmischungsverhältnis r, aufgrund der Abnahme des Sättigungs- 


mischungsverhältnisses ry s in der Berechnung der virtuellen Temperatur über 


3 Nicht in Bezug auf einen allgemeinen Grundzustand p(z). 
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Gleichung (2.14) einen vernachlässigbaren Beitrag liefert, sodass Ty ~ T und 
Bıpr © girl l gilt (vgl. die Annäherung der beiden Aufstiegskurven in Ab- 
bildung 2.1). Am Niveau des neutralen Aufstiegs (NNA), an dem also wie 
am korrigierten NFK Bzpr = 0 ist, wird angenommen, dass instantan keine 
Kondensation mehr stattfindet, sodass dort die Wolkenobergrenze zu finden 
ist. Bei hochreichender Feuchtkonvektion liegt das NNA häufig in etwa auf 
der Höhe der Tropopause, an welcher der vertikale Temperaturgradient der 


Umgebung positiv wird. 


Stabilitätsbetrachtungen 


Aus den obigen Erläuterungen ist ersichtlich, dass der Aufstieg eines Luftpa- 
kets inhärent abhängig vom Zustand der Umgebung ist. Je nachdem, ob die 
atmosphärischen Bedingungen Konvektion physikalisch prinzipiell zulassen, 
spricht man allgemein von einer (statisch bzw. thermisch) stabil oder insta- 
bil (labil) geschichteten Umgebung. Instabil bedeutet dabei, dass eine klei- 
ne vertikale Auslenkung eines Luftvolumens zu einer sich selbst verstärken- 
den Störung des Gleichgewichtszustands, hier des hydrostatischen Gleichge- 
wichts, anwächst. Neben der statischen Instabilität treten in der Atmosphäre 
eine Reihe weiterer Instabilitäten auf, die auf unterschiedlichen Raum- und 
Zeitskalen und unter bestimmten Strömungsverhältnissen für Horizontal- und 
Vertikalbewegungen eine Rolle spielen (z. B. Scherungs-, barokline, zentrifu- 
gale Instabilität; Markowski und Richardson, 2010; Vallis, 2017). 

Aus dem Ersten Hauptsatz der Thermodynamik für adiabatische Zustands- 
änderungen aus Gleichung (2.7) und dem hydrostatischen Gleichgewicht aus 
Gleichung (2.31) folgt für einen horizontal homogenen Grundzustand einer 
trockenen Atmosphäre (T = T(z) und P = p(z)): 

oT PT 24) g 


=, = = = -0,0098Km!. (2.37) 
Z P Cp 
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Die Temperatur eines solchen Grundzustands nimmt folglich linear mit 
der Höhe ab. Dabei heißt —I4 trockenadiabatischer Temperaturgradi- 
ent (z.B. Kraus, 2004). Nach einer etwas ausgedehnteren Rechnung (nicht 
gezeigt) erhält man für pseudoadiabatische Zustandsänderungen in einer ge- 
sättigten Atmosphäre aus Gleichung (2.23) analog mit (T) = lyo = const., 
der Näherung p—e;(T) © p und mit lo > R,T den pseudoadiabati- 
schen (irreversibel-feuchtadiabatischen) Temperaturgradienten: 
aT 1+ RTO 


oz K K Jun L,orys(Z) ` 
Ki(z) RT (2) RaT (2) 


(2.38) 


Implizite und explizite Abhängigkeiten einiger Variablen von z sind da- 
bei zur Verdeutlichung der Höhenabhängigkeit des Temperaturgradienten 
dargestellt. Die Ersetzung K; —> K, in Gleichung (2.38) führt direkt auf 
den reversibel-feuchtadiabatischen Temperaturgradienten —I',.. Vernachläs- 
sigt man in Gleichung (2.38) den Beitrag von Flüssigwasser zur spezifischen 
Wärmekapazität (K; — K), so erhält man die etwas bekanntere Form des all- 


gemeinen gesättigten, feuchtadiabatischen Temperaturgradienten 


Inte?) 


_ Bu RaT (z) 
d (2) WW Oz u Ta 1 Jun Lorys (z) ` 
tKRT® RTO 


(2.39) 


Aus dem thermodynamischen Diagramm in Abbildung (2.1) kann man bei- 
spielsweise in der Höhe der 0 °C-Grenze für das Sättigungsmischungsverhält- 
nis einen Wert von ry s 70,006 kg kel ablesen, sodass eine Uberschlagsrech- 


nung in diesem Beispiel auf 


—Vps(Ze=0°c) ye —0,0055 Km! (2.40) 
—T;(zs=0°c) N —0,0056 Km"! (2.41) 
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führt. Generell gilt in gesättigter Luft unter den in Kapitel 2.1.1 getroffenen 
Annahmen, dass das Mischungsverhältnis von Wasserdampf und Kondensat 
im reversiblen Prozess größer als das Sättigungsmischungsverhältnis von 
Wasserdampf im irreversiblen Prozess ist, d.h. es gilt ron > r,,. Somit ist 
jederzeit K, < K; < K und T, < Ips < Is < T4. Die Unterschiede zwischen 
den verschiedenen feuchtadiabatischen Temperaturgradienten sind wie im 
obigen Beispiel jedoch meist gering (vgl. Markowski und Richardson, 2010). 
Der Wertebereich der feuchtadiabatischen Temperaturgradienten liegt etwa 
zwischen —0,004Km~! und —T; und lässt sich mit dem Wissen über die 
ungefähre Höhenlage der jeweiligen Druckniveaus in Abbildung 2.1 gut 


erkennen. 


Im Folgenden kennzeichne —y den vertikalen Temperaturgradienten einer be- 
liebigen atmosphärischen Umgebung. Folgende differentielle Zustände stati- 
scher Schichtungsstabilität lassen sich unter der pseudoadiabatischen Annah- 


me für gesättigte Luft unterscheiden: 


e Absolute Stabilität: Trocken- oder feuchtadiabatisch gehobene Luftpa- 
kete kühlen sich in einer solchen Umgebung stärker ab als die Umge- 
bung und steigen von selbst nicht weiter auf. Dies ist der Fall, wenn 
Y<T,s bzw. 005 y/dz > 0 gilt. 


Absolute Instabilität: Trocken- oder feuchtadiabatisch gehobene Luft- 
pakete kühlen sich in einer solchen Umgebung weniger stark ab als die 
Umgebung und können von selbst weiter aufsteigen. Dies ist der Fall, 


wenn Y>Tybzw. 00y/dz < 0 gilt. 


Bedingte Instabilität: Trockenadiabatisch gehobene Luftpakete kühlen 
sich in einer solchen Umgebung stärker, feuchtadiabatisch gehobene 
Luftpakete weniger stark ab als die Umgebung. Dies ist der Fall, wenn 
Tps Ne Tu bzw. 00,,u/dz < 0 und zugleich 901, /dz > 0 gilt. 
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e Die Grenzfälle y = Ty (00y/dz = 0) und Y = Fps (9 0ps,u /9z = 0) 


bezeichnen eine trocken- bzw. feucht-neutrale Schichtung. 


Der vertikale Temperaturgradient in der realen Atmosphäre liegt insbesonde- 
re während sommerlicher, konvektionsförderlicher Wetterlagen häufig über 
eine vertikal ausgedehnte Schicht der Troposphäre im Bereich der beding- 
ten Instabilität. Recht häufig gibt es jedoch einerseits auch Schichten, die 
absolut stabil sind (wie z.B. zwischen 900 und 840 hPa in Abbildung 2.1). 
Andererseits liegen bisweilen Teile der Troposphäre teils im Grenzbereich 
trocken-neutraler Schichtung, beispielsweise bei mitteltroposphärischer Kalt- 
luftadvektion bei gleichzeitigem Vorhandensein von Warmluft in den unteren 
Troposphärenschichten. 

In manchen Situationen, in denen feuchte, warme Luft in den unteren 
Troposphärenschichten und trockene, kalte Luft darüber vorhanden ist, 
erhöht sich der Betrag des vertikalen Temperaturgradienten über diesen 
Bereich, wenn er als Ganzes gehoben wird. In den unteren Luftschichten 
setzt früher Kondensation ein als in den oberen, weswegen sie sich ab 
dem Zeitpunkt des Einsetzens der Kondensation weniger stark abkühlen. 
Dies führt zur Ausbildung der sogenannten potentiellen Instabilität in der 
Atmosphäre, sofern der Temperaturgradient in diesem Bereich nicht im 
Wertebereich absoluter Stabilität liegt, d.h. y > Tps bzw. 00,,u/dz < 0 
gilt (Rossby, 1932). Im Zusammenhang mit potentieller Instabilität kommt es 
auch häufig zu einer sogenannten abgehobenen Mischungsschicht (Elevated 
Mixed Layer; Carlson et al., 1983). Diese ist durch eine trockene Luftschicht 
in der mittleren Troposphäre (in Mitteleuropa in etwa im 700 hPa Niveau) ge- 
kennzeichnet, welche zuvor dynamisch oder orografisch trockenadiabatisch 
von bodennahen Niveaus ausgehend gehoben wurde. Werden solche Luft- 
schichten in Regionen advehiert, in denen in der unteren Troposphäre warme, 
feuchte Luft vorzufinden ist, kann eine bedeutende potentielle Instabilität 
generiert werden (Lanicci und Warner, 1991). Dies war der Fall bei vielen 


schweren Hagelunwettern in Deutschland wie beispielsweise dem Münchner 
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Hagelunwetter am 12. Juli 1984 (Heimann und Kurz, 1985), dem Hagel- 
sturm von Villingen-Schwenningen am 28. Juni 2006 (Noppel et al., 2010), 
dem Reutlinger Hagelunwetter am 28. Juli 2013 (Kunz et al., 2018) oder 
dem in München am 10. Juni 2019 (Wilhelm et al., 2021). 


Bedingte Instabilität ermöglicht prinzipiell dann freie Konvektion, wenn ein 
mit Feuchte angereichertes Luftpaket aus der unteren Troposphäre zunächst 
trockenadiabatisch, nach Erreichen des HKN feuchtadiabatisch gehoben wird 
und dabei das NFK erreicht. Je kleiner jedoch y und je trockener das Luftpa- 
ket ist, desto höher liegt das NFK und desto stärker muss der Hebungsantrieb 
sein, der das Luftpaket bis zum NFK anhebt. Diese Art bedingter Instabilität 
wird nach Normand (1931) als latente Instabilität bezeichnet und ist für die 
Entstehung hochreichender Feuchtkonvektion eine wichtige Voraussetzung 
(vgl. Kapitel 1; Groenemeijer, 2009; Mohr, 2013). 

Zwei Maße zur Charakterisierung latenter Instabilität lassen sich aus einem 
thermodynamischen Diagramm mit einer berechneten Aufstiegskurve wie 
in Abbildung 2.1 unmittelbar ablesen: die konvektive verfügbare potentielle 
Energie (Convective Available Potential Energy, CAPE) und die konvektive 
Hemmung oder Sperre (Convective Inhibition, CIN). Die CAPE und die 
CIN sind abhängig von der Wahl der Methode für die Bestimmung des 
Ausgangsniveaus und des entsprechenden Luftpakets (ol Sie sind als 


integrale Stabilitätsmaße wie folgt definiert: 


NFK NFK To 
om Të el Ma Ga 
ZB ZB V,U 
NNA Ty p — Ty y 


NNA 
CAPE = / Brprdz=g dz. (2.43) 
NFK 


NFK Tyu 
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Der Wertebereich der CAPE ist allgemein größer als der der CIN, 
d.h. ein Wert der CAPE von beispielsweise 100Jkg-! ist ein rela- 
tiv niedriger Wert, während CIN = —100Jkg~! schon eine bedeutsa- 
me konvektive Hemmung darstellt, die entweder durch Hebung überwun- 
den oder durch verschiedene Prozesse im Lauf des Tages abgebaut wer- 
den muss (Markowski und Richardson, 2010). In Abbildung 2.1 ist für ein 
Mischungsschicht-Luftpaket CAPEML 7 1900 Jkg! (hellblaue Fläche) und 
CINmL © —100Jkg~! (orange). In diesem Fall dauerte es bis zum Abend, bis 
sich starke Gewitter in der Umgebung entwickelten, weil der Hebungsantrieb 
tagsüber zu schwach war. 

Latente Instabilität liegt demnach vor, wenn CAPE > 0 ist. Ob ein Luftpa- 
ket diese auch nutzen kann, hängt maßgeblich von seiner Feuchte und dem 
Vorhandensein eines genügend starken Hebungsantriebs ab, mit dessen Hil- 
fe das Luftpaket die stabile Schicht überwinden kann (vgl. Doswell, 1987; 
Johns und Doswell, 1992). Je größer der Betrag der CIN ist, desto größer 
ist die Hemmung. Die CAPE und die CIN als kombinierte Maße von Insta- 
bilität und Feuchte müssen zur Vorhersage von hochreichender Konvektion 
demnach gemeinsam betrachtet werden und mit Indikatoren für verschiede- 
ne Hebungsprozesse ergänzt werden, um eine qualitative Aussage über das 
Auftreten der Konvektion treffen zu können. 

Die Integration der mit der Vertikalgeschwindigkeit w multiplizierten Glei- 
chung (2.36) über die Zeitspanne der freien Konvektion vom NFK bis zum 
NNA entspricht 


an). (tuna) 
d wn? f Bıprdz . (2.44) 
w? (INFK) (tNFK) 


Mit der Annahme, das w(tnex) vernachlässigbar klein ist und w wegen 
der durchweg positiven Auftriebsbeschleunigung seinen größten Wert in der 
Höhe des NNA erreicht (Lohmann et al., 2016), folgt mit Gleichung (2.43) 
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die thermodynamische Grenzgeschwindigkeit als Obergrenze der Vertikalge- 


schwindigkeit durch Konvektion 
Wmax = W(tnna) © V2 CAPE. (2.45) 


Diese ist aufgrund der Vernachlässigung der (vertikalen) Druckstörungen, 
des Vorhandenseins von Hydrometeoren, die dem Auftrieb entgegenwirken, 
und des Einmischens trockener Umgebungsluft in der Theorie eines geho- 
benen Luftpakets besonders in der oberen Troposphäre deutlich größer als 
die tatsächliche Vertikalgeschwindigkeit (vgl. Gleichungen (2.34) und (2.35); 
Trapp, 2013). Häufig wird Wma, in Grafiken verwendet (wie beispielsweise 
in Kapitel 5), da wegen des Wurzelziehens der Wertebereich der CAPE ge- 


staucht wird. 


2.2 Gewittersysteme und ihr Lebenszyklus 


Nachdem die dynamischen und thermodynamischen Grundlagen erklärt wur- 
den, beschäftigt sich dieses Kapitel mit den verschiedenen Organisationsfor- 
men konvektiver Zellen. Im Folgenden wird zunächst das Modell des Le- 
benszyklus einer idealisierten Einzelzelle ausführlich beschrieben, da dieses 
essentiell für das Verständnis der weiteren Organisationsformen ist (Kapi- 
tel 2.2.2 bis 2.2.4). Um eine Verbindung zu den thermodynamischen und dy- 
namischen Umgebungsbedingungen verschiedener konvektiver Systeme her- 
zustellen, werden speziell die CAPE sowie die vertikale Windscherung, aus- 
gedrückt durch den Betrag der Differenz der horizontalen Windvektoren in 
Bodennähe und in 6km über Grund (Deep Layer Shear, DLS), in den jewei- 
ligen Abschnitten diskutiert. Eine Vorstellung weiterer Umgebungsvariablen 


und konvektiver Indizes folgt in Kapitel 2.3. 
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2.2.1 Isolierte Konvektion — Einzelzellen 


Grundlegende Beschreibungen des Lebenszyklus einer einzelnen konvekti- 
ven Zelle gehen auf die Analysen von Byers und Braham (1948) im Rahmen 
des sogenannten Thunderstorm Projects zurück, das im Jahr 1947 in Ohio 
durchgeführt wurde*. Anhand einer Kombination von Beobachtungsdaten aus 
Flugzeugmessungen und aus bodengebundenen Radarmessungen gelang es 
erstmals, organisierte Strukturen einer konvektiven Zelle, insbesondere deren 
Auf- und Abwindbereiche, zu identifizieren (z. B. Doswell, 2007). Auf dieser 
Basis entstand das erste konzeptionelle Modell des Lebenszyklus einer Ein- 
zelzelle, welches Doswell (1985) mit den darauf aufbauenden Erkenntnissen 
aus weiteren knapp 40 Jahren experimenteller, theoretischer und numerischer 
Forschung ergänzte. Dieses Modell beschreibt den Lebenszyklus als Abfol- 
ge von drei separaten Entwicklungsstufen: 1) Wachstumsstadium, in Anleh- 
nung an das Englische (/Towering] Cumulus Stage) meist Cumulusstadium 
genannt, 2) Reifestadium (Mature Stage) und 3) Dissipationsstadium (Dis- 
sipation Stage). Diese Einteilung basiert maßgeblich auf der Veränderung 
dynamischer und mikrophysikalischer Eigenschaften der Zellen im Verlauf 
des Lebenszyklus und soll im Folgenden in Anlehnung an Doswell (1985), 
Markowski und Richardson (2010) und Trapp (2013) kurz dargestellt wer- 


den. 


1) Cumulusstadium 


Ähnlich der Vorstellung eines aufsteigenden Luftpakets ohne räumliche Aus- 
dehnung in der Theorie eines gehobenen Luftpakets (vgl. Kapitel 2.1.2) be- 
ginnt der Lebenszyklus einer Einzelzelle mit einem adiabatisch zum NFK 
gehobenen oder von selbst aufsteigenden Luftpaket mit endlicher räumlicher 
Ausdehnung. Durch das Überschreiten des HKN setzt Kondensation durch 


heterogene Nukleation ein, sodass sich eine Cumulus-Wolke bildet. Oberhalb 


‘https: //www.weather.gov/iln/ThunderstormProject 
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des NFK entwickelt sich im Inneren der Wolke aufgrund des positiven Auf- 
triebs (Bıpr > 0 in Gleichung (2.36)) eine positive Vertikalbeschleunigung, 
welche zu einem sich vertikal intensivierenden Aufwindbereich (Updraft) 
führt (Abbildung 2.2a). Infolge dieser Vertikalbewegung entsteht unterhalb 
des Luftpakets eine konvergente horizontale Strömung. Die sich entwickelnde 
Konvektionszelle wird dadurch mit weiterer Feuchtigkeit aus der Umgebung 
versorgt, sodass durch das Freisetzen weiterer latenter Wärme oberhalb des 
HKN der Aufwindbereich der Zelle gestärkt werden kann. Rasch erreicht die 
Cumulus-Wolke eine vertikale Mächtigkeit von mehreren Kilometern (Cu- 
mulus congestus bzw. Towering Cumulus) und einen horizontalen Durchmes- 
ser von etwa 5— 8 km. 

Während des Übergangs vom Cumulus- ins Reifestadium ist die Wol- 
ke zu einem Cumulonimbus angewachsen, dessen Obergrenze bereits das 
NNA erreicht. Die Wolkentröpfchen wachsen durch das Kollidieren und 
Zusammenfließen mehrerer Tröpfchen an (Koaleszenz). Aufgrund der sin- 
kenden Temperaturen in der oberen Troposphäre bilden sich neben un- 
terkühlten Wolkentröpfchen zunehmend auch Wolkeneispartikel, die den 
Wegener-Bergeron-Findeisen-Prozess initiieren Können, der im weiteren Ver- 
lauf zu einem beschleunigten Wachstum der Eispartikel auf Kosten der unter- 
kühlten Wassertröpfchen führt. Details zur komplexen Wolkenmikrophysik 
finden sich beispielsweise in Seinfeld und Pandis (2006), Wang (2013) oder 
Lohmann et al. (2016). Wenn die Hydrometeore ein Gewicht und damit einen 
negativen Auftrieb erreichen, der den positiven Auftrieb im Aufwindbereich 


kompensiert, beginnen sie zu fallen. 
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(a) (6) [7] 
HEIGHT (km) HEIGHT (km) HEIGHT (km) 


-8km 
TOWERING CUMULUS STAGE MATURE STAGE DISSIPATING STAGE 


(a) Stufe 1: Cumulusstadium (b) Stufe 2: Reifestadium (c) Stufe 3: Dissipationsstadi- 
um 


Abbildung 2.2: Dreistufiges, konzeptionelles Modell des Lebenszyklus einer idealen Einzelzelle 
nach Byers und Braham (1948) und Doswell (1985), übernommen aus Trapp (2013). © Cam- 
bridge University Press (genehmigter Nachdruck). 


2) Reifestadium 


Doswell (1985) legt dar, dass unterschiedliche Definitionen für den Beginn 
des Reifestadiums geeignet und gebräuchlich sind. Häufig gilt als Beginn des 
Reifestadiums der Zeitpunkt, zu dem der erste Niederschlag den Boden er- 
reicht. Aus dynamischer Perspektive ist für das Reifestadium die Entwick- 
lung einer Region mit absinkender Luft, initiiert durch fallende Hydrometeo- 
re, (negative Vertikalbeschleunigung; B;pr < 0; Downdraft) essentiell, was 
meist schon rund 10 min, bevor der erste Niederschlag den Boden erreicht, 
der Fall ist. Zur weiteren Entwicklung des Abwindbereichs trägt nicht nur der 
fallende Niederschlag bei, sondern auch das Einmischen trockener Luft aus 
der direkten Umgebung der Wolke, welches die Evaporation kleiner Wasser- 
tröpfchen fördert (vgl. Kapitel 2.1.2). Aufgrund der eher geringen horizonta- 
len Ausdehnung einer Einzelzelle spielen die durch den Aufstieg induzierten 


vertikalen Druckstörungen für die Dynamik eine untergeordnete Rolle. 
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Der Wegener-Bergeron-Findeisen-Prozess und weitere niederschlagsbilden- 
de Prozesse laufen im oberen Bereich der Wolke am effektivsten ab. 
Durch das Erreichen des NNA bedingt die Massenkontinuität gemäß Glei- 
chung (2.28) dort eine horizontal divergente Strömung, welche die Ausbil- 
dung horizontal ausgedehnter Eiswolken, den Amboss, initiiert und aufrecht- 
erhält. In Kombination mit der höheren mittleren Strömungsgeschwindigkeit 
in der oberen Troposphäre führt dies zu einer (leichten) Asymmetrie der 
Cumulonimbuswolke. Die stetig wachsenden Hydrometeore fallen daher als 
intensive Niederschläge häufig etwas stromab versetzt zum Aufwindbereich 
Richtung Erdboden (Abbildung 2.2b). Dabei findet ein weiteres Einmischen 
der trockeneren Umgebungsluft statt, welches den Abwind verstärkt. Schnell 
erreicht der Abwind mit den intensiven Niederschlägen den Boden und strömt 
näherungsweise horizontal isotrop in den bodennahen Luftschichten ausein- 
ander. Diese Diffluenz (Outflow) vergleichsweise kühler Luft (Cold Pool) 
führt durch Geschwindigkeitskonvergenz zur Ausbildung einer Böenfront im 
Grenzbereich zur bodennahen Umgebungsluft. 

Gleichzeitig beginnt damit der Übergang in das Dissipationsstadium: Der 
fallende Niederschlag und die durch den Abwindbereich induzierte bo- 
dennahe Diffluenz führen dazu, dass die ursprüngliche bodennahe Kon- 
vergenz feucht-warmer Luft unterhalb des Aufwindbereichs abgeschwächt 
und schließlich aufgehoben wird, sodass aufgrund der Kontinuitätsglei- 
chung (2.28) der Massenfluss in den Aufwindbereich versiegt. Nichtsdesto- 
weniger kommt es in der verbleibenden Cumulonimbuswolke zunächst wei- 
terhin zum auftriebsbedingten Aufsteigen, weiterer Kondensation und Nie- 


derschlagsbildung. 


3) Dissipationsstadium 


Durch den fehlenden Nachschub an feucht-warmer Luft nimmt der Auftrieb 
im Aufwindbereich vom Boden her immer weiter ab, sodass sich die Auf- 


winde weiter abschwächen, bis die gesamte Zelle nur noch aus einem großen 
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Abwindbereich und fallendem Niederschlag besteht (Abbildung 2.2c). 
Die Böenfront breitet sich in den untersten Schichten der Troposphäre 
weiter horizontal aus und verliert durch die Abnahme der Intensität des 
Abwindbereichs und des Niederschlags an Stärke. Die Wolke wird nach und 
nach von unten her aufgelöst und es bleiben Überreste des Ambosses in der 


oberen Troposphäre übrig, welche in der Folge evaporieren bzw. sublimieren. 


Folgende besondere Merkmale treten während des Lebenszyklus einer Ein- 


zelzelle auf: 


e Blitze: Je stärker die Aufwinde einer konvektiven Zelle sind, desto häu- 
figer treten Blitze auf, besonders im Reifestadium. Die sich bildenden 
Wassertröpfchen und Eispartikel wachsen und formen mit der Zeit grö- 
Bere Hydrometeore, insbesondere Graupel, der ein Eisteilchen mit ei- 
ner geringeren Dichte und einem Durchmesser von bis zu 5mm dar- 
stellt. Kollidieren kleine Eispartikel mit dem größeren Graupel, kommt 
es zur Ionisierung der Stoßpartner. Wegen seines wachsenden Gewichts 
fällt der nun negativ geladene Graupel in niedrigere Bereiche der Wol- 
ke, während die leichten, positiv geladenen Eispartikel durch die Auf- 
winde in den oberen Bereich der Wolke transportiert werden. Im un- 
teren Bereich der Wolke beginnen die Graupelkörner — zumindest bei 
sommerlicher Konvektion — zu schmelzen und laden sich dabei leicht 
positiv auf. Eine Ladungstrennung ist erfolgt und die Wolke kann als 
ein elektrischer Tripol angesehen werden (Rakov und Uman, 2003). 
Dies ist jedoch nur eine von mehreren Modellvorstellungen, die derzeit 
diskutiert werden. Bei entsprechend großer Ladungstrennung kommt 
es in der Folge zu Entladungen in Form von Blitzen innerhalb ei- 
ner Wolke (Intra-Cloud Lightning), zwischen zwei benachbarten Wol- 
ken (Cloud-to-Cloud Lightning) oder zwischen der Wolke und dem 
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Boden (Cloud-to-Ground Lightning). Im Dissipationsstadium reduziert 
sich die Ladungstrennung aufgrund der nachlassenden Aufwinde und 


es werden kaum noch Blitze beobachtet. 


Konvektives Überschießen (Overshooting Top): Je stärker der Auf- 
windbereich einer konvektiven Zelle, desto eher reichen die Vertikal- 
geschwindigkeiten im oberen Bereich der Zelle aus, dass der Aufwind 
das NNA in einem gewissen Maß durchbrechen kann. Oberhalb des 
Ambosses sind dann Wolken zu finden, die eine kuppelartige Form 
aufweisen. Aufgrund der sehr stabilen Schichtung in diesem Bereich 
stratosphärischer Luft beginnen die übergeschossenen Luft- und Was- 
serteilchen rasch wieder abzusinken (z.B. Doswell, 1985). Das kon- 
vektive Überschießen ist bei Multi- und Superzellen (Kapitel 2.2.2 
und 2.2.3) meist stärker ausgeprägt als bei Einzelzellen; in der Pra- 
xis werden automatische Detektionen des konvektiven Überschießens 
in Satellitenbildern daher beispielsweise als Proxy für Hagel verwen- 
det (z.B. Bedka, 2011; Punge et al., 2017). 


Einzelzellen entstehen vor allem, wenn eine geringe Windscherung 
mit etwa DLS < 10ms~! vorherrscht (Markowski und Richardson, 2010; 
Trapp, 2013). Der Wertebereich der CAPE hingegen ist weniger entschei- 
dend, wobei die meisten Einzelzellen bei niedrigen bis moderaten Werten bis 
etwa CAPE = 1 000Jkg~! auftreten. Typischerweise herrschen solche Bedin- 
gungen während synoptisch gradientschwacher Wetterlagen vor, bei denen 
Konvektion vor allem durch den Tagesgang der Temperatur und Feuchte in 
der atmosphärischen Grenzschicht infolge von solarer Einstrahlung bestimmt 
wird. Häufig dienen dann orografisch bedingte Hebung oder lokale horizon- 
tale Strömungskonvergenzen als Auslösemechanismus. Mit einer typischen 


vertikalen Ausdehnung von H = 10km und Vertikalgeschwindigkeiten im 
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Auf- und Abwindbereich von etwa W = 5 — 10 ms! erhält man für die typi- 


sche Lebensdauer einer Einzelzelle etwa 
H . 
Tz ~2 7 = 30—60 min , (2.46) 


welche das einmalige Durchlaufen eines Luftpartikels durch einen Auf- und 


Abwindbereich charakterisiert. 


2.2.2 Multizellulare Konvektion 


Eine Multizelle setzt sich — wie der Name bereits verrät — aus mehreren Ein- 
zelzellen zusammen, die dynamisch miteinander interagieren. Die Zellen sind 
dabei in unterschiedlichen Stadien ihrer Entwicklung, wie in Abbildung 2.3 
illustriert ist: Hier befindet sich in der oberen Abbildung die als erste aufge- 
tretene Zelle 1 bereits im Dissipationsstadium, Zelle 2 am Ende des Reifesta- 
diums, Zelle 3 am Beginn des Reifestadiums und Zelle 4 im Cumulusstadium. 
Eine solche organisierte Entwicklung ist nur möglich, wenn die Troposphäre 
ausreichend labil geschichtet ist und eine moderate vertikale Windscherung 
vorliegt (DLS = 10 — 20 ms™!). Eine besonders geeignete Kenngröße, mit- 
tels derer das Auftreten multizellulärer Konvektion gut charakterisiert wer- 
den kann, ist die Bulk Richardson Number (BRN). Diese verknüpft die po- 
tentielle Energie in der Umgebung, charakterisiert durch die CAPE, mit der 
kinetischen Energie in der Umgebung, charakterisiert durch ein Maß für die 


mittlere vertikale Scherung in einer hochreichenden vertikalen Schicht: 


BRN = — -—, : (2.47) 
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Darin lässt sich Au beispielsweise durch die Differenz der horizonta- 
len Windvektoren bestimmen, die den mittleren Wind in der Umgebung 
zwischen 0 und 6km tiber Grund und den mittleren Wind in einer bo- 
dennahen Schicht wie z.B. zwischen 0 und 0,5km über Grund ange- 
ben (Weisman und Klemp, 1982; Markowski und Richardson, 2010): 


AU = Ug_6km — Uo—0,5km - (2.48) 


Ist etwa BRN > 35, so herrschen fiir die Entwicklung von Multizellen 
förderliche Umgebungsbedingungen vor (Trapp, 2013). 

Die Dynamik einer idealisierten Multizelle kann wie folgt erläutert werden: 
Durch die ausgeprägte Böenfront einer (Multi-)Zelle infolge starker Abwinde 
kommt es stromab des vertikalen Scherungsvektors S = dv/dz durch die In- 
teraktion mit dem bodennahen horizontalen Vorticityfeld zur Hebung warmer 
Luft aus der Umgebung, welche zur Ausbildung eines neuen, vorgelagerten 
Aufwindbereichs führt (Abbildung 2.3, oben). In kurzer Zeit entwickelt sich 
eine neue Zelle, in der niederschlagsbildende Prozesse einsetzen (Zelle 4 in 
Abbildung 2.3, Mitte). Gleichzeitig erhält die vorherige Zelle (Zelle 3) da- 
durch immer weniger Nachschub an feucht-warmer Luft und geht auf das 
Ende ihres Reifestadiums zu. Ihr Niederschlagsbereich verschmilzt mit den 
schwächer werdenden Niederschlägen der Zellen 1 und 2, ihre Abwinde er- 
reichen den Boden und stärken die bereits vorhandene Böenfront. Kurze Zeit 
später befindet sich Zelle 4 im Übergang in das Reifestadium und die Böen- 
front induziert erneut die Entwicklung eines neuen Aufwindbereichs (Zelle 5; 
Abbildung 2.3, unten). 

Ohne oder bei geringer vertikaler Windscherung reicht die durch die Böen- 
front induzierte Hebung meist nicht aus, damit die aufsteigende Luft stromab 
des Scherungsvektors das NFK erreicht. Erst das durch die Geschwindig- 
keitsscherung hervorgerufene Vorticityfeld, dessen Rotationsachse senkrecht 


zum Scherungsvektor aus der Zeichenebene in Abbildung 2.3 hinaus steht, 
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7 Cell 2 a S 


Abbildung 2.3: Schematische Darstellung einer Multizelle nach Doswell (1985), übernom- 
men aus Markowski und Richardson (2010) und leicht modifiziert. Dünne Pfeile charakterisieren 
Auf- und Abwindbereiche. Niederschlag ist durch die grün (schwach bis mäßig) und gelb (stark) 
eingefärbten Bereiche dargestellt. Die Lage der Böenfront im Vorfeld des Bereichs der intensivs- 
ten Niederschläge in Richtung des vertikalen Scherungsvektors S (hier vereinfacht als richtungs- 
konstant angenommen) ist durch die kleine kaltfrontartige Linie gekennzeichnet. Zusätzlich ist 
links die verstrichene Zeit in Minuten angegeben. © John Wiley & Sons (genehmigter Nach- 
druck). 


ermöglicht dies (Fovell und Tan, 1998; Lin et al., 1998). Die kalte, ausströ- 
mende Luft weist ihrerseits eine negative vertikale Geschwindigkeitssche- 
rung auf, die ein entgegengesetzt gerichtetes Vorticityfeld induziert (Rota- 
tionsachse senkrecht zum Scherungsvektor in die Zeichenebene hinein). An 
der Böenfront addieren sich somit die Beiträge beider Vorticityfelder, sodass 
die Hebung stromab des Scherungsvektors deutlich stärker ausfällt als bei 
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kaum vorhandener Windscherung. Durch diese Vertikalbewegungen ausge- 
löste Schwerewellen können während des Cumulusstadiums der Zellen den 
Aufwindbereich weiter verstärken (z. B. Lin und Joyce, 2001). 

Weiterhin spielen Faktoren wie das Maß an Richtungsscherung der mittle- 
ren Winde, mesoskalige Inhomogenitaéten der Umgebungsbedingungen, die 
durch die Orografie, Konvergenzen oder unterschiedliche Landoberflächen 
hervorgerufen werden, sowie großskalige Hebungsprozesse eine Rolle für die 
genaue, real ablaufende Dynamik einer Multizelle. Die Hebung entlang der 
Böenfront ist abhängig von der bodennahen Strömung, die lokal- und meso- 
skalig deutlich von der mittleren Windrichtung in der unteren und mittleren 
Troposphäre abweichen kann, welche in etwa mit der Zugrichtung der Ein- 
zelzellen assoziiert werden kann. Das Bild der Vorticityfelder muss daher auf 
eine horizontale Ebene erweitert werden. Die beiden Vorticityfelder addie- 
ren sich am effektivsten, wenn der bodennahe Wind senkrecht in Richtung 
zur Böenfront steht. Unter der Annahme eines konstanten Windfelds ist dort 
die Hebung am größten, sodass sich die nächste Zelle in diesem Bereich bil- 
det (Abbildung 2.4). Im Allgemeinen entsteht die nächste Zelle, wo die Kon- 
vergenz des bodennahes Windes mit der Böenfront am stärksten ausgeprägt 
ist. 

Der Bewegungsvektor einer Multizelle cz ist als eine effektive Verlage- 
rung des Komplexes zu verstehen. Diese ergibt sich durch die Vektorad- 
dition der Verlagerung der Einzelzellen mit der mittleren Strömung u der 
Schichten, über die sich die Wolken erstrecken, und der Entwicklungsrich- 
tung des Systems Goen (auch Propagations- oder Zellneubildungsvektor ge- 


nannt), die durch die Position der sich neu entwickelnden Zellen vorgegeben 


5 Der Index Z kennzeichnet in der vorliegenden Arbeit Attribute einer konvektiven Zelle, 
die in mehreren Kapiteln vorkommen, und dient zur besseren Abgrenzung gegenüber den 
Umgebungsvariablen. 
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u Creu 


Abbildung 2.4: Schematische Darstellung zur Verlagerung einer Multizelle nach Houze (1993). 
Die Multizelle ist als ein zusammenhängendes Gebiet des Radarreflektivitätsfaktors durch die 
graue Umrandung dargestellt. Niedrige Reflektivitäten sind gepunktet, hohe in gefüllten Grautö- 
nen abgestuft dargestellt. Rote Pfeile repräsentieren das bodennahe Windfeld. Der blau schraf- 
fierte Bereich kennzeichnet den Bereich der höchsten Konvergenz. Der blaue Kreis markiert 
den Ort einer Neubildung einer Zelle, der für das Vektordiagramm rechts beispielhaft verwendet 
wird. 


wird (vgl. Abbildung 2.4): 


CZ = U + Creu - (2.49) 


Der Winkel œ zwischen der mittleren Windrichtung u und dem Verlagerungs- 
vektor cz kann nach Marwitz (1972b) in Einzelfällen über 50° betragen. Dies 
ist insbesondere dann der Fall, wenn die Verlagerung der einzelnen Zellen 
doch etwas von der mittleren Windrichtung abweicht, wie es bei starker Rich- 
tungsscherung in der unteren und mittleren Troposphäre vorkommt. Durch 
die Bildung neuer Zellen kann die Lebensdauer des gesamten konvektiven 
Systems deutlich länger als bei einer Einzelzelle sein. Die durch die Böen- 
front neu initiierte Zelle kann jeweils relativ schnell dafür sorgen, dass die 
zuvor gebildete Zelle vom Einströmbereich der warm-feuchten Umgebungs- 
luft abgeschnitten wird. Wie in Abbildung 2.3 näherungsweise dargestellt, 
beträgt die Zeitspanne zwischen der Bildung zweier Zellen häufig nur etwa 
15 min (Fovell und Dailey, 1995). Durch die insgesamt längere Lebensdau- 


er und die dynamische Interaktion der einzelnen Zellen in einer Multizelle 
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können allgemein intensivere und länger andauernde Niederschläge als bei 
Einzelzellen auftreten. Zudem ist die Böenfront in der Regel stärker aus- 
geprägt, sodass höhere Böengeschwindigkeiten gemessen werden. Auch die 
Bildung von meist kleinem bis mittelgroßem Hagel (bis etwa 5 cm) ist auf- 
grund längerer Trajektorien der Hydrometeore als bei einer Einzelzelle mög- 
lich (z. B. Browning, 1977). 


2.2.3 Isolierte Konvektion — Superzellen 


Superzellen treten in Europa deutlich seltener auf als kurzlebige Einzelzellen 
oder multizelluläre Systeme. Sie können aufgrund ihres hohen Grades an Or- 
ganisation über mehrere Stunden bestehen, Zugbahnen mit einer Länge von 
einigen hundert Kilometern erreichen und große Schäden durch konvektive 
Starkwindböen, Tornados und großen Hagel verursachen. Im Gegensatz zu ei- 
ner Multizelle, deren Lebensdauer und Verlagerung eng mit der Entwicklung 
neuer konvektiver Zellen stromab des Systems verbunden ist, handelt es sich 
bei einer Superzelle um isolierte Konvektion, deren Entwicklung durch die 
Dynamik eines starken, rotierenden Aufwindbereichs bestimmt ist (einer so- 
genannten Mesozyklone; z. B. Lemon und Doswell, 1979). Indem permanent 
warm-feuchte Luftmassen in diesen Aufwindbereich advehiert werden und 
niederschlagsinduzierte Abwindbereiche aufgrund einer ausgeprägten verti- 
kalen Windscherung räumlich vom Aufwindbereich separiert entstehen, kann 
sich eine Superzelle über viele Stunden selbst erhalten. Das charakteristische 
Erscheinungsbild einer Superzelle besteht dabei aus der rotierenden Meso- 
zyklone und zwei flankierenden Abwindbereichen, einem an der vorderen 
Flanke des Aufwindbereichs (Forward-Flank Downdraft) und einem an der 
rückseitigen Flanke (Rear-Flank Downdraft; Abbildung 2.5). 

In Abhängigkeit vom genauen vertikalen Windprofil in der Umgebung kön- 
nen Superzellen im Laufe ihres Lebenszyklus unterschiedlich ausgepräg- 
te Charakteristika entwickeln. Eine mögliche, grobe Klassifikation orien- 


tiert sich am vertikalen Windprofil in der mittleren und oberen Troposphäre, 
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Abbildung 2.5: Aufsicht auf eine klassische Superzelle zum Höhepunkt ihres Reifestadiums 
nach der Entwicklung einer Mesozyklone, hier durch ein T angedeutet (Horizontalschnitt in 
der unteren Troposphäre; nach Lemon und Doswell (1979), übernommen aus Trapp (2013)). Die 
graue Kontur kennzeichnet die Grenze starken Niederschlags, die dunkelgrauen Flächen stel- 
len Aufwind-, die hellgrauen Flächen Abwindbereiche dar (FFD: Forward-Flank Downdraft; 
RFD: Rear-Flank Downdraft). Das sturm-relative Windfeld ist durch die Pfeile dargestellt, des- 
sen Konvergenzen durch die dunkelgraue Frontlinie. © Cambridge University Press (genehmig- 
ter Nachdruck). 


d.h. im Bereich, wo die niederschlagsbildenden Prozesse besonders effektiv 
ablaufen. Klassische Superzellen bei moderaten sturm-relativen Winden in 
den höheren Schichten weisen im Radarbild das größte Niederschlagsgebiet 
im vorderseitigen Abwindbereich auf. Der intensivste Niederschlag fällt im 
rückseitigen Abwindbereich und nimmt aufgrund der Interaktion mit dem 
rotierenden Aufwindbereich eine hakenförmige Struktur an (Hook Echo). 
Der Aufwindbereich selbst ist im Radarbild durch niedrige Niederschlags- 
signale gekennzeichnet (Bounded Weak Echo Region; z.B. Browning, 1965; 
Marwitz, 1972a). 
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Bei starken sturm-relativen Winden in den höheren Schichten werden die 
Hydrometeore rasch horizontal vom Aufwindbereich weg verfrachtet, sodass 
sie nicht allzu stark anwachsen und als Niederschlag (sturm-relativ) vor al- 
lem stromab des Aufwindbereichs im vorderseitigen Abwindbereich Rich- 
tung Erdboden fallen. Die Niederschlagsintensität ist meist moderat, biswei- 
len wird jedoch auch größerer Hagel beobachtet (Low Precipitation Super- 
cell). Im Gegensatz dazu haben bei schwachen sturm-relativen Winden in der 
oberen Troposphäre die Hydrometeore eine größere Verweildauer im Auf- 
windbereich und können daher zu größeren Regentropfen und Hagelkörnern 
anwachsen. Der Niederschlag fällt anschließend im rückseitigen Abwindbe- 
reich, der näher am Aufwindbereich und der rotierenden Mesozyklone liegt. 
Größere Teile des Niederschlagsbereichs können in die Rotation der Meso- 
zyklone mit eingebunden werden und so die Rotation insbesondere in den 
unteren Schichten verstärken. Gleichzeitig können Teile des Niederschlags- 
bereichs die Aufwinde schwächen oder dem Einströmen warm-feuchter Luft- 
massen in den Aufwindbereich entgegenwirken. Die Niederschlagsintensität 
ist in diesen Superzellen meist sehr hoch, das Hakenecho stark ausgeprägt und 
die Wahrscheinlichkeit für großen Hagel und Tornadobildung erhöht (High 
Precipitation Supercell). Die genauen Details der hier vereinfacht beschrie- 
benen Prozesse sind allerdings sehr sensitiv in Bezug auf das vertikale Wind- 
profil über die gesamte Höhe der Troposphäre. Dieses bestimmt folglich maß- 
geblich die Intensität und die Lebensdauer einer Superzelle. 

Förderliche Umgebungsbedingungen für die Entwicklung einer Superzelle 
sind neben einer hohen vertikalen Windscherung zwischen den bodennahen 
und höheren Luftschichten (DLS > 18 ms~!; vor allem Richtungsscherung) 
ausgedehnte Feuchtefelder in der unteren Troposphäre und ein ausgeprägter 
Grenzschichtstrahlstrom (Low Level Jet), der effektiv feucht-warme Luft in 
den Aufwindbereich einströmen lässt (z. B. Johns und Doswell, 1992). Groß- 
räumige Hebung beispielsweise auf der Vorderseite eines Höhentrogs kann 


die potentielle Instabilität erhöhen. Besonders im Zusammenspiel mit einer 
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abgehobenen Mischungsschicht führt dies zu hohen Werten der CAPE, wel- 
che fiir die Entwicklung von starken Aufwinden und damit von Superzellen 
forderlich sind (vgl. Kapitel 2.1.2). 


Entstehung einer rotierenden Mesozyklone 


Entscheidend fiir den Lebenszyklus einer Superzelle ist die Genese 
einer rotierenden Mesozyklone (z.B. Davies-Jones, 1984; Klemp, 1987; 
Markowski und Richardson, 2010; Trapp, 2013). Dieser dynamisch komple- 
xe Prozess setzt etwa während des Übergangs vom Cumulus- in das Reife- 
stadium der Zelle ein, wenn sich bereits ein ausgeprägter Aufwindbereich 
entwickelt hat. Ausgangspunkt für die theoretische Betrachtung ist die Im- 
pulsgleichung (2.27). Reibungseffekte seien ausgenommen, die Coriolis- und 
Zentrifugalbeschleunigung durch die Erdrotation aufgrund der betrachteten 
räumlichen Skala (L = 10km) vernachlässigbar und die Schwerebeschleuni- 
gung wie schon in Kapitel 2.1.2 zu g ~ g e; vereinfacht. Die Anwendung der 
Rotation auf Gleichung (2.27) und anschließende Projektion auf den vertika- 
len Einheitsvektor führt auf die vertikale Vorticitygleichung 

Dr 

Dr EN Ut Mn: Vw-e:: (Vax Vp) ; (2.50) 
in der & für die vertikale und @,, für die horizontale Komponente der relativen 
Vorticity @ = V x v steht. Der Beitrag des baroklinen Vektors im Solenoid- 
term (letzter Term) kann in einer quasi-barotropen Approximation vernach- 
lässigt werden, wird aber beispielsweise bei der Entstehung eines Tornados 
bedeutsam. Der erste Term auf der rechten Seite beschreibt das Dehnen (Stau- 
chen) von vorhandenen Wirbelröhren durch die Divergenz (Konvergenz) des 
horizontalen Windfelds als Ausdruck der Drehimpulserhaltung (Vortex Tube 
Stretching). Der zweite Term beschreibt das Kippen von Wirbelröhren durch 


die vertikale Scherung des horizontalen Windfelds, da 
o. Mu: be (Vw x Si) (2.51) 
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gilt (Vortex Tilting). Die Aufteilung des Windfelds in den Grundzustand ei- 
nes rein höhenabhängigen horizontalen Windfelds und entsprechende dreidi- 
mensionale Störungen v = u(z) + v' (x,t) impliziert, dass der Grundzustand 
keine vertikale Vorticity besitzt, sodass & = &’(x,t) gilt. Das Einsetzen in 
Gleichung (2.50) und die Vernachlässigung aller nicht-linearen Störungster- 
me (Linearisierung) eliminiert den Stretching-Term, der unter den getroffenen 
Annahmen ein rein nicht-linearer Effekt ist und aus einem Ruhezustand mit 


&’ = 0 heraus ohnehin kaum Einfluss hat: 
>= D(z): Vw! = -e.: [Vw x§,,(z)] - (2.52) 
Unter der Annahme, dass sich die Zelle mit einer konstanten Geschwindigkeit 


Cz = CZ x€x + Cz yey = const. verlagert, lautet Gleichung (2.52) in einem mit 


der Zelle bewegten natiirlichen Koordinatensystem 


| E = 06’ du _ ðw 
SS [u(z) — ez], ER [u(z) cz], In +9, ER +9, SCH (2.53) 


Wird der tangentiale Einheitsvektor e, parallel zum sturm-relativen Vek- 


tor Us, = U—Cz, also Us, = |U — cz|es, gelegt, vereinfacht sich dies zu 


ac! ac! ow’ ow’ 

= -|u, | 2.54 
Darin nennt man den tangentialen Anteil der relativen Vorticity @; = My - es 
Streamwise Vorticity, während der normale Anteil @, = On - €n als Crosswise 
Vorticity bezeichnet wird. Der normale Einheitsvektor e, zeigt dabei 


orthogonal nach rechts vom tangentialen Einheitsvektor. 


Das Wirbelkippen induziert in einem sich entwickelnden Aufwindbe- 
reich (w’ > 0) unabhängig vom Verlauf der sturm-relativen Stromlinien Ro- 
tationspole (Vorticitymaxima) in dessen Randbereich. Exemplarisch seien 


Stromlinien in Richtung von S; betrachtet, sodass die horizontale Vorticity 
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der Umgebung @; = @,e, mit ©, < 0 ist (reine Crosswise Vorticity), da der 
normale Einheitsvektor antiparallel zu den Wirbelröhren der Umgebung ist. 
Entlang der Stromlinien ist linksseitig (rechtsseitig) des Aufwindzentrums 
dw’ /dn > 0 (dw'/dn < 0) mit dem größten Gradienten im Bereich der Wir- 
belröhre, die durch das Aufwindzentrum verläuft. Der Bereich links (rechts) 
des Aufwindzentrums erfährt daher wegen Gleichung (2.54) eine antizyklon- 
ale (zyklonale) Drehung, da 0¢'/ot > 0 (d&’/dt < 0) ist. Die Dipolachse, 
welche die Rotationspole verbindet, steht in der jeweiligen Höhenschicht 
senkrecht auf Ru. Ausgedrückt über das mit der vertikalen Windscherung in 
der Umgebung in Verbindung stehende Vorticityfeld ox ist die Dipolachse 
parallel zu den Wirbelröhren der Umgebung. Zum gleichen Ergebnis führt 
eine Betrachtung von Stromlinien, die von rechts senkrecht zum Scherungs- 
vektor verlaufen (©; = Oses mit ©, > 0, reine Streamwise Vorticity). 

Sobald vertikale Vorticity ¢’ durch das Wirbelkippen generiert wird, wird sie 
sturm-relativ advehiert. Im Gegensatz zum Wirbelkippen ist der Verlauf der 
sturm-relativen Stromlinien entscheidend fiir den Effekt der Advektion. Im 
Fall reiner Crosswise Vorticity kommt es gemäß des Advektionsterms in Glei- 
chung (2.54) zu einer Verschiebung der einzelnen Rotationspole entlang der 
Stromlinien stromabwärts von Su. Der Grund hierfür ist, dass sich —0&’/os 
entlang der Stromlinien linksseitig (rechtsseitig) des Aufwindzentrums ver- 
ringert (vergrößert). Im Fall reiner Streamwise Vorticity kommt es zu einer 
Verschiebung des Rotationsdipols entlang der Stromlinie und damit senkrecht 
bezüglich der Richtung des Scherungsvektors. Daher vergrößert (verkleinert) 
sich —0&’/ds entlang der Stromlinie zwischen den Rotationspolen im Auf- 
windbereich (außerhalb des Aufwindbereichs). Dies führt folglich dazu, dass 
ein Rotationspol mit dem Aufwind in Phase gerät und sich eine Mesozyklone 
entwickeln kann, während im Fall reiner Crosswise Vorticity die Rotationspo- 
le im Randbereich des Aufwinds verbleiben. Aufgrund des größeren Betrags 
des Vorticitygradienten ist die Verschiebung der Rotationspole durch Stream- 


wise Vorticity ausgeprägter als die Verschiebung durch Crosswise Vorticity. 
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Dynamische Modifikation des Aufwindbereichs und 
Zellaufteilung 


Mit der Entwicklung eines Aufwindbereichs in einer vertikal gescherten Um- 
gebung und den induzierten Rotationsdipolen gehen dynamische Druckstö- 
rungen p/,,, einher, die — wie in Gleichung (2.35) dargestellt — vertikale Be- 
schleunigungen hervorrufen können. Diese Druckstörungen setzen sich all- 


gemein aus einem linearen und einem nicht-linearen Anteil zusammen: 
4 Di WM 1 12 
Pdyn ~ Sh (z) Vw ’ Hen al ~ Se? $ (2.55) 


Je nachdem, wie die vertikale Windscherung ausgeprägt ist (wie groß also 
der Anteil von Streamwise und Crosswise Vorticity ist), haben diese Druck- 
störungen unterschiedliche Auswirkungen auf die weitere Entwicklung einer 
Superzelle (Weisman und Rotunno, 2000). Im Folgenden seien sie daher 
einmal für den Fall einer reinen Geschwindigkeitsscherung (gerader Hodo- 
graph) und einmal für den Fall einer Kombination aus Geschwindigkeits- 


und Richtungsscherung (gekrümmter Hodograph) diskutiert. 


Gerader Hodograph 

Der Fall eines geraden Hodographen als Folge reiner Geschwindigkeitssche- 
rung wird hier o. B. d. A. durch eine reine Westströmung mit u(z) = u(z)ex 
betrachtet. Sowohl ©; (z) = e,m /ðz als auch S} (z) = gelt dd: ändern somit 
lediglich ihren Betrag mit der Höhe, nicht aber ihre Richtung. Eine sich ent- 
wickelnde Zelle bewegt sich parallel zum Scherungsvektor und somit in allen 
Höhenschichten senkrecht zu den Wirbelröhren der Umgebung. 

Das Fehlen von Richtungsscherung bewirkt, dass sich durch das Wirbelkip- 
pen südlich (nördlich) des Aufwindbereichs ein hochreichender Bereich zy- 
klonaler (antizyklonaler) Rotation ausbildet (Abbildung 2.6a). Aufgrund des 
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Fehlens von Streamwise Vorticity findet jedoch keine Verlagerung der Rotati- 
onspole senkrecht zum Scherungsvektor statt. Für die linearen Druckstörun- 
gen gilt: 
; du ow’ 
Payn,ı ~ Oe ox. š 


Somit wird ein Druckanstieg (Druckfall) an der Rückseite (Vorderseite) der 


(2.56) 


Zelle hervorgerufen, welcher in mittleren Höhenschichten aufgrund der dort 
vorliegenden meist stärkeren Geschwindigkeitsscherung stärker ausfällt als in 
der unteren Troposphäre. Der resultierende Druckgradient ist demnach paral- 
lel zum Scherungsvektor S}. Mit dem Druckfall auf der Vorderseite geht da- 
her wegen Gleichung (2.35) eine positive Vertikalbeschleunigung einher, so- 
dass es dort zu einem verstärkten Aufstieg einströmender Luftmassen kommt, 
der zu einer Neigung des Aufwindbereichs stromab des Scherungsvektors 
führt und die Verlagerung der Zelle unterstützt. 

Die nicht-linearen Druckstörungen bewirken wegen der quadratischen 
Abhängigkeit von ¢’ in den beiden den Aufwind flankierenden Rotations- 
bereichen einen Druckfall und daher eine positive Vertikalbeschleunigung, 
die aufgrund der meist stärkeren Geschwindigkeitsscherung in mittleren 
Höhenschichten stärker ausgeprägt ist. Neben dem ursprünglichen Aufwind- 
bereich bilden sich dadurch zwei neue Aufwindbereiche im Bereich der 
Rotationszentren (Abbildung 2.6b). Die einströmenden Luftmassen divergie- 
ren zunehmend zu den beiden neuen Aufwindbereichen und schneiden den 
ursprünglichen Aufwindbereich von der Zufuhr warm-feuchter Luftmassen 
ab. Schließlich kann sich dort im Verlauf ein Abwindbereich entwickeln, der 
das Aufteilen (Split) in zwei achsensymmetrische Zellen einleitet (bezogen 
auf die Achse, die durch die Verlagerung des ursprünglichen Aufwind- 
bereichs gegeben ist; z.B. Klemp und Wilhelmson, 1978a). Diese beiden 
Zellen bewegen sich in Richtungen etwas weiter nach links bzw. rechts 
als der ursprüngliche Aufwindbereich (Left- und Right-Mover). Dadurch 


entsteht ein zunehmender Anteil von Streamwise Vorticity für beide Zellen, 
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die in der Folge eine zyklonal (Right-Mover) bzw. antizyklonal (Left-Mover) 


rotierende Mesozyklone entwickeln können. 


Gekrümmter Hodograph 

Auf der Nordhemisphäre liegt aufgrund der synoptisch-skaligen Strömungs- 
dynamik während konvektionsförderlicher Wetterlagen meist eine Rechts- 
drehung des Windes mit der Höhe vor. In diesem Fall ist der Hodograph 
nach rechts gekrümmt und neben der Windscherung $,,(z), die sich nun aus 
Geschwindigkeits- und Richtungsscherung zusammensetzt, ändern auch die 
horizontalen Wirbelröhren in der Umgebung @®,,(z) ihre Richtung mit der 
Höhe. Dadurch ändert sich die horizontale Achse der infolge des Wirbelkip- 
pens in Gleichung (2.54) entstehenden Rotationsdipole rechtsdrehend mit der 
Höhe. Die Achse steht jedoch immer senkrecht auf §;,(z) in der jeweiligen 
Schicht (Abbildung 2.7). 

Die linearen Druckstörungen bewirken bis in mittlere Troposphärenhöhen 
einen Druckanstieg (Druckfall) auf der rechten (linken) Flanke des Auf- 
windbereichs. In höheren Schichten ist es genau umgekehrt, sodass wegen 
Gleichung (2.35) rechtsseitig (linksseitig) eine positive (negative) Vertikal- 
beschleunigung hervorgerufen wird. Die nicht-linearen Druckstörungen be- 
wirken bis in mittlere Troposphärenhöhen sowohl links- als auch rechtssei- 
tig des Aufwindbereichs eine positive Vertikalbeschleunigung. Somit über- 
lagern sich an der rechten Flanke lineare und nicht-lineare Druckstörungen 
konstruktiv, während sie sich an der linken Flanke entgegenwirken und weit- 
gehend kompensieren. Daher entwickelt sich der rechtsseitige Aufwindbe- 
reich schneller, erreicht höhere Vertikalgeschwindigkeiten als der linksseitige 
und verlagert sich gleichzeitig in Richtung des ursprünglichen Aufwindzen- 
trums. Dies liegt daran, dass der Verlagerungsvektor ez aufgrund der Rich- 
tungsscherung nicht parallel zum Scherungsvektor ist und die sturm-relativen 
Stromlinien besonders in den unteren Luftschichten eine Komponente par- 
allel zu den Wirbelröhren der Umgebung haben, welche die sturm-relative 


Advektion von Streamwise Vorticity ermöglicht. Im mittleren und rechten 
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(a) Dynamik zu Beginn der Zellentwicklung bei gera- 
dem Hodographen 


(b) Dynamik bei geradem Hodographen beim Split der 
Zelle 


Abbildung 2.6: (a) Rotationsdipole (rot) mit vertikaler Vorticity CT (+ und —), lineare Druckstö- 
rungen Din , CH: positiv, L: negativ) und Druckgradienten (grüne Pfeile; parallel zu Sn) in einer 
sich entwickelnden Zelle bei reiner Geschwindigkeitsscherung (Vertikalprofil links). Blaue Pfei- 
le kennzeichnen die dadurch hervorgerufenen Druckgradienten. Weiße Pfeile mit blauem Rand 
kennzeichnen mittlere Trajektorien von Luftteilchen. (b) Ähnliche Darstellung zu einem späteren 
Zeitpunkt, wenn sich induziert durch die nicht-linearen Druckstörungen zwei separate Aufwind- 
bereiche gebildet haben. In der Mitte befindet sich ein Abwindbereich, der durch den fallenden 
Niederschlag initiiert wird. Zusätzlich sind die bodennahen Wirbelröhren durch ihre Rotations- 
achsen (schwarze Linien) und ihre Drehrichtung (rot) dargestellt. Das Kippen der Wirbelröhren 
ist anhand der hinteren Röhre erkennbar. Die Einströmrichtungen für die entstehenden Left- und 
Right-Mover sind mit gestrichelten Pfeilen angedeutet. Aus Markowski und Richardson (2010). 
© John Wiley & Sons (genehmigter Nachdruck). 
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Bereich der Zelle entsteht in der Folge eine zyklonal rotierende Mesozy- 
klone, während eine weitere Abschwächung des linksseitigen Aufwindbe- 
reichs erfolgen kann. Kommt es infolge der nicht-linearen Druckstörungen 
zu einer Zellaufteilung, führen die linearen Druckstörungen demnach da- 
zu, dass sich der Right-Mover erhält und sich die Mesozyklone sogar wei- 
ter verstärken kann, während sich der Left-Mover rasch abschwächt und 
dissipiert (z.B. Klemp und Wilhelmson, 1978a; Rotunno und Klemp, 1985; 
Houze et al., 1993; Markowski und Dotzek, 2011). 

Dieser Effekt ist umso stärker, je ausgeprägter die rechtsdrehende Rich- 
tungsänderung des Windes mit der Höhe in der Umgebung ist. Numeri- 
sche Simulationen zeigen, dass das Maß der Verstärkung des rechtssei- 
tigen Aufwindbereichs nicht die Lebensdauer des Right-Movers nach der 
Zellteilung bestimmt (Weisman und Rotunno, 2000). Tatsächlich geben sie 
Hinweise, dass Aufwindbereiche auch nach einigen Stunden noch eine ho- 
he Intensität aufweisen und damit eine lange Lebensdauer der Zelle be- 
wirken können, wenn der Umgebungswind in der unteren Troposphäre um 
etwa 90° nach rechts dreht und in der mittleren Troposphäre näherungs- 
weise richtungskonstant bleibt, wie sich auch durch Beobachtungen be- 
stätigt (z.B. Burgess und Curran, 1985). Von einer großen Anzahl beob- 
achteter Mesozyklonen auf der Nordhemisphäre (ohne Unterscheidung der 
Windprofile) rotieren insgesamt etwa 90% aller Mesozyklonen zyklon- 
al (Bunkers, 2002). 


Erhaltung der Rotation des Aufwindbereichs 


Entscheidend für eine lange Lebensdauer einer Superzelle ist die Erhaltung 
ihrer rotierenden Mesozyklone. Exemplarisch sei ein kritisches Höhenniveau 
betrachtet, in dem der sturm-relative Vektor u,, parallel zu den Wirbelröhren 
in der Umgebung ist, und das nach Lilly (1979) häufig im Reifestadium einer 
Superzelle in etwa 1,5 bis 2km Höhe liegt. Unter der Annahme, dass die Zelle 


nach einiger Zeit einen Gleichgewichtszustand mit d! /dt = 0 erreicht hat, 
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Abbildung 2.7: Wie Abbildung 2.6a, nur fiir den Fall eines gekriimmten Hodographen. Aus 
Markowski und Richardson (2010). © John Wiley & Sons (genehmigter Nachdruck). 


gilt nach Gleichung (2.54) in diesem Höhenniveau 


d / 

0. 2.57) 
Folgt man in diesem Niveau einer Stromlinie vom Bereich einströmender 
Luft in den Aufwindbereich, wird die Vorticity der Umgebung im Gleich- 
gewichtszustand folglich komplett in vertikale Vorticity des Aufwinds mit 
derselben Rotationsrichtung umgewandelt (Davies-Jones, 1984). In Kombi- 
nation mit dem nicht-linearen Effekt der Wirbelröhrendehnung, die gemäß 
Gleichung (2.50) mit steigender Rotationsstärke einen nicht zu vernachlässi- 
genden Einfluss hat, wird insgesamt durch die sturm-relative Advektion der 
Streamwise Vorticity im Einströmbereich die Rotation des Aufwinds aufrecht- 


erhalten bzw. weiter verstärkt. 
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Sturm-relative Helizität (SRH) 


Die SRH ist ein Maß für die sturm-relative Streamwise Vorticity, welches 
für wissenschaftliche Analysen sowie die Vorhersage von Gewittern verwen- 
det wird (z. B. Droegemeier et al., 1993; Markowski und Richardson, 2010). 
Wegen des Einflusses der Verlagerungsrichtung der Zelle ist die SRH nicht 
Galilei-invariant und daher im mitbewegten Bezugssystem formuliert: 


/ 


Zo 
SR z (Y-cz) -@ dz’ 
0 
w=0 Zo 
x -f e,- [(¥ cz) x S] dz’ 
2 
=- f | @-— cz) x S| dz’. (2.58) 
7=0 


Darin bezeichnet z’ die Höhe über Grund und zZ, den oberen Rand einer 
vertikalen Schicht. Der Verlagerungsvektor ez der Zellen kann mittels der 
Methode nach Bunkers et al. (2000) abgeschätzt werden: 


z X So- 
Cz =U0_6km £ D (xan) : (2.59) 
|So—6km| 


Darin wurde D von den Autoren auf 7,5 ms! festgelegt, Wo—6km bezeichnet 
den vertikal gemittelten Horizontalwind in der Umgebung. Das Vorzeichen 
des zweiten Terms differenziert zwischen Left- und Right-Movern. Auch im 
Fall eines geraden Hodographen kann die SRH Werte ungleich Null erhalten, 
wenn die abgeschätzte Verlagerungsrichtung von der konstanten Windrich- 
tung abweicht (wie z. B. bei den nach dem Aufteilen einer Zelle entstehenden 
Left- und Right-Movern). Große Werte der SRH sind ein Hinweis auf einen 
großen Anteil von Streamwise Vorticity im sturm-relativen Einströmbereich 
einer Zelle und können als Maß für die Wahrscheinlichkeit für einen zy- 
klonal rotierenden Aufwindbereich interpretiert werden. Typische Werte, die 


beim tatsächlichen Auftreten von Superzellen berechnet werden, liegen bei 
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SRHo_3km ~ 250 m? s~2, während bei anderen Organisationsformen die Wer- 
te bei etwa 50 m? s7? liegen (Thompson et al., 2003). Die SRHo_3km ist dar- 
über hinaus ein guter Indikator für die zu erwartende Länge der Zugbahn (und 
damit indirekt auch für die Lebensdauer) sowie die Hagelkorngröße einer Su- 
perzelle und zeigt sogar ein besseres diesbezügliches Unterscheidungsver- 
mögen als die DLS (Kunz et al., 2020). Thompson et al. (2003) zeigten mit 
Hilfe von Daten aus Radiosondenaufstiegen in den USA, dass Superzellen 
dort bevorzugt in Umgebungen auftreten, in denen etwa DLS > 20ms 1. 
CAPEnmr > 1 500 Ikg-! und BRN = 35 ist. Aus Taszarek et al. (2020) lässt 
sich ableiten, dass die Trennwerte für die SRHo_3xm, DLS und CAPEyy in 
Europa teils deutlich niedriger liegen. Ausgeprägte, hochreichende Mesozy- 


klonen sind hier jedoch auch weitaus seltener als in den USA. 


2.2.4 Mesoskalige konvektive Systeme 


Ein Mesoskaliges Konvektives System (MCS) ist ein Zusammenschluss vie- 
ler konvektiver Zellen zu einem konvektiven System, dessen Längenska- 
la durch Z = 100km in mindestens eine horizontale Richtung gegeben 
ist (Trapp, 2013). Änderungen des horizontalen Strömungsfelds aufgrund der 
Coriolisbeschleunigung können auf dieser Längenskala mit einer charakteris- 
tischen Windgeschwindigkeit von U = 10ms~! nach Gleichung (2.27) die- 
selbe Größenordnung erreichen wie die advektiven Änderungen des Wind- 
felds®: 


2 
=> u = LEI . (2.60) 


6 Mittlere Vertikalbewegungen auf dieser Längenskala sind deutlich schwächer als die horizon- 
tale Strömung und resultieren daher in vernachlässigbaren Beiträgen zur horizontalen Corio- 
lisbeschleunigung. 
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Darin steht f = 2Qsin(@) mit dem Betrag der Winkelgeschwindigkeit der 
Erdrotation Q = 27(24h)~! und dem Breitengrad @ für den Coriolispara- 
meter, der in mittleren Breiten bei @ = 45° etwa |f| = 1074 s7! beträgt. Die 
entsprechende Zeitskala ist dementsprechend T = L U~! = fl -1 3h. MCS 
entwickeln häufig eine mesoskalige Zirkulation, die dazu führt, dass solche 
Systeme über Zeitskalen existieren können, die bis zu einer Größenordnung 


über dieser Zeitskala liegen (ca. 1 Tag). 


Klassifikationen 


MCS sind allgemein durch ein großes, zusammenhängendes Niederschlags- 
gebiet gekennzeichnet. Ein Teil ist dabei durch konvektive Niederschläge ge- 
prägt, der andere durch stratiforme Niederschläge (s. u.). Grundsätzlich wer- 
den zwei verschiedene Typen von MCS nach ihrem Entstehungsprozess un- 
terschieden. Typ 1 MCS entstehen bereits kurz nach einer durch großräu- 
mige Hebung hervorgerufenen verbreiteten Auslösung konvektiver Zellen. 
Dies kann beispielsweise im Bereich des isentropen Aufgleitens über eine 
synoptisch-skalige Front oder im Bereich von bodennahen Konvergenzen ge- 
schehen, besonders wenn die Konvektionshemmung (CIN; vgl. Kapitel 2.1.2) 
nicht zu stark ausgeprägt ist (Markowski und Richardson, 2010). Typ 2 MCS 
bilden sich durch den Zusammenschluss des Cold Pools bereits existierender 
Einzel-, Multi- oder Superzellen (Upscale Growth). Sie entwickeln sich ins- 
besondere an Tagen, an denen die Konvektionsauslösung an den Tagesgang 
der solaren Einstrahlung gekoppelt ist, folglich häufig in den Abendstunden. 
Der Fortbestand der MCS über die Nacht wird durch die Präsenz nächtlicher 
Grenzschichtstrahlströme unterstützt, die ein Windmaximum am Oberrand 
der Grenzschicht in 1 — 2km Höhe zur Folge haben (Trapp, 2013). Deren 
vertikale Komponente trägt zu vertikalen Auslenkungen von Luftpaketen in 
Richtung des NFK bei. Gleichzeitig bedeutet ein solches Windmaximum ei- 
ne vertikale Scherung des Horizontalwinds an den Rändern des Strahlstroms, 


welche die Organisation des konvektiven Systems unterstützt (s. u.). Darüber 
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hinaus erhöht ein solcher Strahlstrom die Massenkonvergenz im Bereich der 
Front des MCS, die für das weitere Bestehen des MCS förderlich ist. Biswei- 
len tragen auch orografisch oder selbst-induzierte Schwerewellen zur Aus- 
lenkung von Luftpaketen bei. Unter solch günstigen Umgebungsbedingungen 
können sich MCS die ganze Nacht hindurch am Leben erhalten. 

Entwickelt ein MCS eine sehr große horizontale Ausdehnung, wird es 
auch als Mesoskaliger Konvektiver Komplex (MCC) bezeichnet. MCC stel- 
len somit eine Unterklasse der MCS dar, die meist eine besonders lange 
Lebensdauer erreichen. Maddox (1980) legte folgende Klassifikationskrite- 
rien für einen MCC basierend auf abgeleiteten Beobachtungsgrößen aus 
Infrarot-Satellitenbildern fest: 1) Der Wolkenschirm muss auf einer Fläche 
von mehr als 100000 km? Temperaturen niedriger als d = —32 °C vorwei- 
sen; 2) Zugleich muss der Wolkenschirm auf einer Fläche von mehr als 
50000 km? Temperaturen niedriger als ® = —52 °C vorweisen; 3) Die Krite- 
rien 1 und 2 müssen über eine Zeitspanne von mindestens 6h erfüllt sein; 4) 
Für das Verhältnis der horizontalen Achsen des Wolkenschirms muss gelten 
dkurz Ge > 0,7. Das System darf demnach nicht zu stark von der Kreis- 
form abweichen’. Aufgrund der großen raum-zeitlichen Skala führen MCC 
häufig zu lang anhaltenden, mäßigen bis starken Regenfällen und können 
daher hohe Regensummen verursachen (z.B. Wilhelm et al., 2021). Insbe- 
sondere können MCC an ihrer Front starke konvektive Windböen hervor- 
rufen. Unter der Wirkung der Corioliskraft kommt es im Zentrum des Sys- 
tems häufig zu Druckfall, sodass ein mesoskaliger konvektiver Wirbel ent- 
steht (Davis und Trier, 2007; vgl. Schmidberger, 2018). 


7 Maddox (1980) bezeichnet dieses Verhältnis als Exzentrizität. In der Mathematik wird 
die (numerische) Exzentrizität einer Ellipse mit den Achsen djang und dkurz hingegen über 
e=(1- d diag a definiert. Für einen Kreis gilt demnach e = 0 und ein übertragenes 

Kriterium fiir MCC würde lauten: e < 0,714. 
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Rotunno-Klemp-Weisman-Theorie für Gewitterlinien 


Zu den Typ 1 MCS zählen Gewitterlinien (Squall Lines), die sich lediglich in 
eine horizontale Richtung über die charakteristische Längenskala erstrecken. 
In Abhängigkeit von den sturm-relativen Winden in der mittleren und oberen 
Troposphäre befinden sich die stratiformen Niederschläge einer Gewitterlinie 
eher auf der Rück- oder Vorderseite (Trailing bzw. Leading Stratiform 
Precipitation) bzw. entlang der langen horizontalen Achse (Parallel Strati- 
form Precipitation). Am häufigsten beobachtet wird die Kombination aus 
konvektivem Niederschlag an der Vorderseite und stratiformem Niederschlag 
auf der Rückseite der Linie (ca. 60 — 80%; Parker und Johnson, 2000). In 
Abhängigkeit von der bodennahen Luftfeuchte und weiteren Faktoren weisen 
Gewitterlinien entweder einen zusammenhängenden Aufwindbereich (Slab- 
like Updraft) oder mehrere zellartige Aufwindbereiche (Cellular Updraft) 
auf (Markowski und Richardson, 2010). Besonders Gewitterlinien mit einem 
zusammenhängenden Aufwindbereich können als zweidimensionales kon- 
zeptionelles Modell vereinfacht dargestellt werden. Die relevanten Prozesse 
können so in einem 2D-Vertikalschnitt entlang der kurzen horizontalen 


Achse der Gewitterlinie mit der Längenskala L’ ~ 10 km betrachtet werden. 


Die zeitliche Entwicklung einer Gewitterlinie kann in einem solchen zwei- 
dimensionalen Modell am besten mit Hilfe der Rotunno-Klemp-Weisman- 
Theorie verstanden werden (z. B. Rotunno et al., 1988; Weisman et al., 1988; 
Weisman und Rotunno, 2004). In der 2D-Geometrie werden in dieser Theo- 
rie neben Reibungseffekten auch Corioliseffekte vernachlässigt (da L’ < L 
ist). Durch die Anwendung der Rotation auf die Impulsgleichung (2.27) und 
der anschließenden Projektion auf die Vorticitykomponente senkrecht zum 
Vertikalschnitt lasst sich eine horizontale Vorticitygleichung herleiten. Unter 
der Annahme einer inkompressiblen Strömung führt die Integration dieser 
Vorticitygleichung über ein Kontrollvolumen im Bereich des niederschlags- 


induzierten Cold Pools zu einem Gleichgewicht der Effekte der vertikalen 
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Windscherung in der Umgebung und des vertikal integrierten Auftriebs im 
Bereich des Kontrollvolumens. Die Windscherung kann dabei durch die Dif- 
ferenz des Winds zwischen der Ober- und Unterkante am stromab befind- 
lichen Rand des Kontrollvolumens Au dargestellt werden. Mit dem vertikal 


integrierten Auftrieb im Bereich des Cold Pools & folgt: 


Au = 722. (2.61) 


Dieses Gleichgewicht stellt ein Kriterium fiir eine optimale, sich selbst erhal- 
tende Gewitterlinie dar und kann als Gleichgewicht zwischen der (positiven) 
horizontalen Vorticity, die durch die Windscherung in den unteren Schich- 
ten hervorgerufen wird, und der (negativen) horizontalen Vorticity, die mit 
dem negativen Auftrieb Z einhergeht, interpretiert werden (Abbildung 2.8). 
Zu Beginn des Lebenszyklus einer Gewitterlinie, wenn sich die entwickeln- 
den Zellen im Übergang vom Cumulus- zum Reifestadium befinden, begin- 
nen die entstehenden Abwindbereiche einen Cold Pool zu bilden. Hierbei ist 
v22] < Au und der Aufwindbereich ist durch die Dominanz der vertika- 
len Windscherung bzw. der positiven Vorticity stromab des Scherungsvek- 
tors geneigt (Abbildung 2.8a). Fallt Niederschlag aus, geschieht dies meist 
im Einströmbereich der warm-feuchten Luft, was im Fall einer ausgepräg- 
ten einströmenden Schicht dort zu einer (vorübergehenden) Destabilisierung 
führt (nicht gezeigt). Im Fall einer flachen einströmenden Schicht kann der 
Niederschlag — ähnlich wie bei dem Lebenszyklus einer isolierten Einzelzelle 
— den Aufwindbereich von den einströmenden Luftmassen abschneiden und 
so das Ende des Lebenszyklus einleiten. 

Wird mit der Zeit jedoch ein Gleichgewicht mit Weit = Au erreicht, ba- 
lancieren sich die positiven und negativen Vorticitybeiträge und erhalten so 
die Gewitterlinie durch die wiederholte Bildung hochreichender Zellen an 
der Vorderseite des Systems aufrecht (Abbildung 2.8b). Bryan et al. (2006) 


zeigten in einer umfangreichen Modellierungsstudie, dass die intensivsten 
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Elevated rear inflow 


© 


Abbildung 2.8: Vertikalschnitt durch eine Gewitterlinie zur Erläuterung der Rotunno-Klemp- 
Weisman-Theorie nach Weisman (1992) und Weisman und Rotunno (2004), übernommen von 
Trapp (2013) und leicht modifiziert. Die Vorticity-Balance ist durch rotierende Pfeile mit dem 
jeweiligen Vorzeichen der Vorticity illustriert. Der schwarze Pfeil kennzeichnet Trajektorien 
von einströmenden Luftteilchen. Der Cold Pool ist durch die graue Fläche gekennzeichnet. 
Zurückströmende Luftmassen im Bereich des Cold Pools sind durch graue Pfeile angedeutet. 
(a) /2|B| < Au; (b) \/2|A| ~ Au; (c) \/2|A| > Au; (d) und (e): Erweiterung der Theorie um 
den Rear Inflow Jet für (d) den Fall eines starken Rear Inflow Jets mit hochreichendem Cold Pool 
und (e) den Fall eines schwachen Rear Inflow Jets mit einem flachen Cold Pool. © Cambridge 
University Press (genehmigter Nachdruck). 


Gewitterlinien mit den stärksten bodennahen Windböen und höchsten Nie- 
derschlagssummen im Bereich dieses Gleichgewichts auftreten. Für Gewit- 
terlinien, die lange Zeit dieses Gleichgewicht aufrechterhalten, ist der Zu- 
sammenhang mit einer insgesamt längeren Lebensdauer des Systems nahe- 
liegend, es bedarf jedoch noch weiterer Untersuchungen. Im weiteren Ver- 
lauf überwiegt aufgrund der Verstärkung des Cold Pools negative Vortici- 
ty. Einströmende Luftmassen werden automatisch stromaufwärts des Sche- 


rungsvektors transportiert, wodurch es zu einer weiteren Verstärkung des 


68 


2.2 Gewittersysteme und ihr Lebenszyklus 


Vorticity-Ungleichgewichts kommt mit \/2|4| > Au (Abbildung 2.8c). Die- 
ser Mechanismus erklärt somit auch die Entstehung der am häufigsten be- 
obachteten Niederschlagsverteilung (Trailing Stratiform; s. o.). Wird der Be- 
reich negativer Vorticity zu dominant, beginnt das Dissipationsstadium der 
Gewitterlinie. 

Eine Erweiterung der vorgestellten Theorie, die insbesondere im Rei- 
festadium der Gewitterlinien relevant ist, berücksichtigt zusätzlich eine 
Vorticity-Balance auf der Rückseite der Gewitterlinie (Abbildung 2.8c—e). 
Bodennah wird durch den Cold Pool dort positive Vorticity generiert, 
während durch die stromaufwärts einströmenden Luftmassen oberhalb des 
Cold Pools negative Vorticity erzeugt wird. Diese Kombination unterstützt 
die Entwicklung eines von der Rückseite einströmenden Strahlstroms (Rear 
Inflow Jet). Dieser verstärkt an der Linienfront je nach Ausprägung die 
Konvergenz und das Aufsteigen der einströmenden Luft und kann damit 
zum Erhalt des konvektiven Systems beitragen, sodass sich ein neues 
Vorticitygleichgewicht einstellt. Die negative Vorticity des Cold Pools wird 
dann durch die positive Vorticity aus der Windscherung der Umgebung und 
dem Rear Inflow Jet balanciert. 


Die Verlagerungsgeschwindigkeit einer Gewitterlinie (bzw. allgemein eines 
MCS) setzt sich aus der mittleren Strömung und der Entwicklungsrichtung 
der sich neu bildenden Zellen an der Front des MCS zusammen — wie für 
kleinskaligere Multizellen in Kapitel 2.2.2 beschrieben. Ist der Rear In- 
flow Jet sehr stark ausgeprägt, kann er Geschwindigkeiten erreichen, wel- 
che die Verlagerungsgeschwindigkeit der Gewitterlinie überschreiten. Dies 
hat zur Folge, dass der Rear Inflow Jet die Front bogenförmig stromab- 
wärts (konkav) deformiert. Im Niederschlagsradar ist diese Form besonders 
gut zu erkennen und wird daher auch als Bogenecho (Bow Echo) bezeich- 
net (Fujita, 1978; Weisman, 1993). Es kommt vor, dass mehrere solcher Bo- 
genechos entlang der Linienfront als wellenartige Struktur im Radarbild zu 


erkennen sind (Line Echo Wave Pattern; Nolen, 1959). Durch die Zunahme 
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der Vorticity an den Rändern des Bogens kann sich das Bogenecho im wei- 
teren Verlauf zu einer Art Komma deformieren und dort, wo zyklonale Vorti- 
city generiert wird, ein Hakenecho bilden. Durch den starken Rear Inflow Jet 
sind besonders bei solchen Entwicklungen extrem hohe Windgeschwindig- 
keiten an der Böenfront sowie starke Fallböen möglich (z. B. Hamilton, 1970; 
Mathias et al., 2017). 


2.3 Atmospharische Umgebungsvariablen, 
Kenngrößen und konvektive Indizes 


Wie in den Kapiteln 1 und 2.1 beschrieben sind ein ausreichendes Feuchte- 
angebot in der unteren Troposphäre, eine labile Schichtung der Atmosphä- 
re und ein Mechanismus, der vertikal ausgelenkten Luftpaketen einen frei- 
en Aufstieg durch thermischen Auftrieb ermöglicht, notwendige Vorausset- 
zungen für die Entstehung hochreichender Feuchtkonvektion. Die ersten bei- 
den Voraussetzungen lassen sich dabei durch verschiedene Kenngrößen und 
sogenannte konvektive Indizes quantifizieren (vgl. Huntrieser et al., 1997; 
Haklander und van Delden, 2003; Kunz, 2007). Der vorherrschende He- 
bungsmechanismus hingegen lässt sich nicht über solche Indizes ausdrücken. 
Die für die Organisationsform konvektiver Zellen relevante vertikale Wind- 
scherung der Umgebung lässt sich wiederum über dynamische Kenngrößen 
wie beispielsweise die DLS oder die SRH darstellen. 

In der vorliegenden Arbeit finden neben den bereits eingeführten Größen 
CAPE, CIN, BRN, DLS und SRH und grundlegenden Variablen wie z.B. 
Lufttemperatur, Windgeschwindigkeit und Luftfeuchte auch weitere Kenn- 
größen und Indizes Verwendung. Meist wird in den folgenden Kapiteln der 


Einfachheit halber generell von Umgebungsvariablen gesprochen, womit alle 
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atmosphärischen Variablen, Kenngrößen und Indizes gemeint sind®. Wichtige 
Umgebungsvariablen, die in den vorherigen Kapiteln noch nicht eingeführt 
wurden, werden im Folgenden beschrieben. Weitere Indizes sind in Anhang 
A dargestellt. Eine große Zahl von Studien aus vielen Teilen der Erde konnte 
einen statistischen Zusammenhang zwischen solchen Kenngrößen und dem 
Auftreten konvektiver Zellen und/oder bestimmter Begleiterscheinungen wie 


Tornados, Blitzen, Hagel, Starkregen oder Sturmböen herstellen (s. u.). 


Mittlerer vertikaler Temperaturgradient (Lapse Rate) 


Der Terminus Lapse Rate wird meist als Bezeichnung für den vertikalen Tem- 
peraturgradienten verwendet, wobei die Lapse Rate bei einer Temperaturab- 
nahme mit der Höhe ein positives Vorzeichen erhält (und damit y aus Ka- 
pitel 2.1.2 entspricht; z.B. Markowski und Richardson, 2010). Zudem dient 
der Begriff häufig dazu, einen mittleren vertikalen Temperaturgradienten über 
eine bestimmte vertikale Schicht zu charakterisieren, sodass die Lapse Rate 
ein Maß für die thermische Stabilität innerhalb dieser Schicht ist. Zwischen 


einem bestimmten Höhenniveau z,, und dem Grund bestimmt sie sich über 


To-T, 
LRo-z, =, (2.62) 
Zm 
wobei Tọ die bodennahe Temperatur und 7,, die Temperatur im Höhenniveau 
Zm kennzeichnet. Zur Bestimmung der Lapse Rate in der mittleren Tropo- 


sphäre ist es gebräuchlich, die Schicht durch zwei Druckniveaus pm und py 


8 Den Erläuterungen zur Theorie eines gehobenen Luftpakets in Kapitel 2.1.2 entsprechend ist 
der Wert einiger Variablen wie z. B. der CAPE und der CIN abhängig von den Startbedingun- 
gen und dem Ausgangsniveau des Luftpakets, welches zur Berechnung angenommen wird. 
Diese werden in den nachfolgenden Kapiteln durch einen tiefgestellten Index an die Akronyme 
angehängt, z. B. CAPEmu für die CAPE basierend auf einem Luftpaket, das in der Schicht mit 
der höchsten pseudopotentiellen Temperatur startet. Weitere Variablen erhalten einen Index, 
welcher die jeweilige vertikale Höhen- oder Druckschicht kennzeichnet, z.B. Tgsohpa für die 
850 hPa Temperatur oder Up_¢xm für den zwischen 0 und 6 km gemittelten Horizontalwind. 
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abzugrenzen (pm > pn). Dann muss zunächst jeweils das entsprechende Hö- 
henniveau z,,, bzw. Zp, bestimmt werden. Die Lapse Rate ergibt sich in die- 
sem Fall tiber 


= Tpm es Tp, 


LR pmpn = (2.63) 


Zpm — ZPn 
mit den entsprechenden Temperaturwerten an den Schichtgrenzen T,„ und 
HI 


Lifted Index (LI) 


Der LI als Maß für latente Instabilität bestimmt sich über die Differenz 
zwischen der Umgebungstemperatur im 500 hPa Niveau und der Temperatur 


eines fiktiven aufsteigenden Luftpakets in diesem Niveau: 


LI = Ty,soohPa — TP500hPa - (2.64) 


Wird ein Luftpaket angenommen, dessen Startbedingungen durch die bo- 
dennahen Werte vorgegeben werden, so bezeichnet man den LI nach 
Galway (1956) als Surface Lifted Index (SLI). Dieser sowie zwei weitere LI, 
die auf einem ML-Luftpaket (50 und 100 hPa Schichtdicke) basieren, finden 
in der vorliegenden Arbeit Verwendung. Ist LI < 0, so herrscht in der mittle- 
ren Troposphäre ein positiver Auftrieb vor. Der LI wurde in vielen Studien zur 
Charakterisierung latenter Instabilität verwendet und gilt als guter Indikator 
für das Auftreten konvektiver Zellen (z.B. Haklander und van Delden, 2003; 
Kunz, 2007). 


Vertikal integrierter Wasserdampfgehalt (IWV) 


Der vertikal integrierte Wasserdampfgehalt ist ein Maß für die in einer 


Einheits-Luftsäule enthaltene Menge an Wasserdampf. Er lässt sich über 


P 7 Ra 
<o (2.11) (œ p R 
IWV = / E E (2.65) 
ZB ZB RaT Fy + Re 
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mit der Höhe des Erdbodens zg und einer oberen Grenze z, berech- 
nen, welche je nach Definition durch den Oberrand der Troposphäre 
bzw. der gesamten Atmosphäre gegeben ist. Die Beiträge aus den Sphä- 
ren oberhalb der Tropopause sind dabei jedoch vernachlässigbar klein. 
Der IWV kann beispielsweise anhand von Satellitenbeobachtungen sowie 
in Atmosphärenmodellen bestimmt werden. Bei letzteren erfolgt eine Dis- 
kretisierung des Integrals in eine Summe über die Modellschichten be- 
zogen auf die jeweilige Vertikalkoordinate. Je höher der IWV ist, des- 
to mehr Wasserdampf steht potentiell zur Kondensation zur Verfügung, 
sollte ein aufsteigendes Luftpaket das HKN bzw. KKN erreichen. Typi- 
sche Werte in Mitteleuropa während konvektiv geprägter Wetterlagen sind 
IWV = 25 — 35kgm?. Der IWV weist beispielsweise einen Zusammen- 
hang zur Häufigkeit von großem Hagel auf (z.B. Cao, 2008). Zudem ist er 
eng mit dem vertikal integrierten Flüssigwassergehalt verbunden, welcher 
über den Radarreflektivitätsfaktor Z aus 3D-Radardaten abgeschätzt werden 
kann (s. Kapitel 4.1.1; Greene und Clark, 1972). In der Praxis kann dieser gut 
zwischen schweren und weniger schweren konvektiven Zellen unterschei- 
den (Kitzmiller et al., 1995). 


Supercell Composite Parameter (SCP) 


Der SCP betrachtet zwei wichtige Faktoren für die Entstehung bzw. Orga- 

nisation konvektiver Zellen in Kombination: Instabilität und vertikale Wind- 

scherung (Thompson et al., 2003). Die in der vorliegenden Arbeit verwendete 

Version orientiert sich an der Definition von Gensini und Tippett (2019): 
CAPEmu SRHo-3km DLS 


SCP = . 2.66 
1000Jkg~! 100m? s7? 20ms=! (2.66) 
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Der SCP als multiplikatives Maß erreicht den Wert 1, wenn die 
CAPEmu, SRHo-3km und DLS typische Schwellenwerte für Umgebungs- 
bedingungen annehmen, die fiir die Bildung von Superzellen förder- 
lich sind (vgl. Kapitel 2.2.3). In wissenschaftlichen Studien werden Um- 
gebungsbedingungen konvektiver Zellen sehr häufig in einer kombinier- 
ten Betrachtungsweise von vertikaler Windscherung und Instabilität un- 
tersucht sowie einige weitere kombinierte Indizes vorgeschlagen und 
angewendet (z.B. Brooks et al., 2007; Groenemeijer und van Delden, 2007; 
Púčik et al., 2015; Sherburn et al., 2016; Westermayer et al., 2017). Manche 
kombinierte Indizes wie der SCP sind dariiber hinaus in einigen operationel- 


len Vorhersagesystemen von nationalen Wetterdiensten implementiert. 


Significant Hail Parameter (SHIP) 


Ein weiterer kombinierter Index ist der SHIP, der neben drei unterschiedli- 
chen Maßen der Instabilität und der vertikalen Windscherung zusätzlich noch 
die Feuchte in Form des Wasserdampfmischungsverhältnisses am HKN be- 


rücksichtigt?: 


1 CAPEmu DLS r HKN 
42000000 Jkg-! ms! gkg! 
_LR700—so0nPa 273,16 K — Tsoonpa 

Kkm=! K ` 


SHIP = 


(2.67) 


Je größer die Werte des SHIP, desto förderlicher sind die Umgebungsbe- 
dingungen für (großen) Hagel. Der Normierungsfaktor kann in ähnlicher 
Weise wie für den SCP verstanden werden, sodass SHIP = 1 einen Trenn- 
wert zwischen Umgebungsbedingungen darstellt, bei denen vornehmlich 


kleinerer oder größerer Hagel beobachtet wird. Neben der operationellen 


H https://www.spc.noaa.gov/exper/mesoanalysis/help/help_sigh.html 
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Wettervorhersage erweist sich auch der SHIP in wissenschaftlichen Studi- 
en zu Hagelumgebungen als sehr niitzlich (z.B. Prein und Holland, 2018; 
Czernecki et al., 2019; Tang et al., 2019). 


2.4 Lebenszyklen konvektiver Zellen und 
Multi-Daten-Ansatz 


Im Anschluss an die Entwicklung konzeptioneller Modelle von konvek- 
tiven Zellen auf der Basis von Beobachtungsdaten widmeten sich in 
der zweiten Hälfte des 20. Jahrhunderts viele wissenschaftliche Studien 
dank der fortschreitenden Entwicklung der Computertechnik und der nu- 
merischen Modellierung vermehrt der numerischen Simulation der zeit- 
lichen Entwicklung konvektiver Zellen, um die theoretischen Konzep- 
te zu überprüfen und ein tiefergehendes Prozessverständnis zu gene- 
rieren (vgl. Kapitel 2.2; z.B. Orville und Sloan, 1970; Wilhelmson, 1974; 
Klemp und Wilhelmson, 1978b; Fovell und Tan, 1998). Heutzutage beschäf- 
tigen sich viele Studien — wie auch die vorliegende Arbeit — dar- 
über hinaus mit dem Nowcasting konvektiver Zellen, welches unter an- 
derem für den automatisierten Warnprozess der Wetterdienste von gro- 
Der Bedeutung ist (s.u.; vgl. Kapitel 1). Algorithmen, die konvektive Zel- 
len automatisch in Produkten aus Fernerkundungsmethoden (Satelliten-, 
Radar- und/oder Blitzdaten) detektieren und verfolgen, spielen dabei ei- 
ne wichtige Rolle (Zellverfolgungsalgorithmen). Basierend auf den Fern- 
erkundungsdaten und den daraus abgeleiteten Daten der Zellverfolgungs- 
algorithmen sind nicht nur nachträgliche Untersuchungen der Lebenszy- 
klen einzelner konvektiver Ereignisse möglich (z.B. Höller et al., 1994; 
Schmidt et al., 2012; Wapler et al., 2015; Kunz et al., 2018), sondern auch 
statistische Untersuchungen der Eigenschaften einer großen Anzahl kon- 
vektiver Zellen (z.B. Davini et al., 2012; Meyer et al., 2013; Wapler, 2017; 
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Schmidberger, 2018; Zöbisch, 2020; Wapler, 2021). Damit können detaillier- 
te Charakterisierungen der Lebenszyklen konvektiver Zellen mit Hilfe unter- 
schiedlicher Beobachtungsgrößen vorgenommen werden, welche wiederum 
zur Verbesserung von Nowcasting-Verfahren genutzt werden können. Viele 
Nowcasting-Verfahren und insbesondere Zellverfolgungsalgorithmen behan- 
deln detektierte Zellen in der Regel gleich, unabhängig von der Organisati- 
onsform oder dem genauen Entwicklungsstadium (Lebenszyklusphase) der 
konvektiven Systeme. Hier dienen die jeweiligen Beobachtungsgrößen als 
Grundlage für die automatische Zellanalyse und die Abschätzung der wei- 
teren Entwicklung (Nowcasts). 

In einer aktuellen Studie weisen Zöbisch et al. (2020) darauf hin, dass 
die Abschätzung der Lebensdauer konvektiver Zellen (bzw. der Zeit 
vom jeweiligen Detektionszeitpunkt bis zur finalen Dissipation der Zel- 
len [verbleibende Lebensdauer]) unabhängig von der Organisationsform 
eine zentrale Herausforderung für Nowcasting-Verfahren der aktuellen 
Generation darstellt. Sie geben darüber hinaus einen umfangreichen, wenn 
auch nicht allumfassenden Überblick über eine Reihe von Studien, die 
sich mit der Untersuchung der Lebenszyklen konvektiver Zellen basierend 
auf Fernerkundungs- und Modelldaten beschäftigen. Die Berichte der 
zurückliegenden Nowcasting-Konferenzen geben zudem einen Überblick 
über die aktuellen Schwerpunkte im Bereich des Nowcastings, welche die 
Wetterdienste als relevant und entscheidend für die potentielle Verbesse- 
rung von Nowcasting-Verfahren identifiziert haben (z.B. Wapler, 2017; 
Schmid et al., 2019). In Anlehnung an die genannten Veröffentlichungen 
seien einige wichtige Aspekte zu den Lebenszyklen konvektiver Zellen 
in Fernerkundungsdaten kurz dargelegt, ohne auf die Funktionsweise der 
Fernerkundungsmethoden und jeden einzelnen Aspekt sowie physikalische 
Interpretationen der jeweiligen Zusammenhänge im Detail einzugehen. 
Vielmehr stellen die folgenden Abschnitte eine kurze Synthese dieser 


Aspekte dar, die eine Brücke zwischen den theoretischen Grundlagen der 
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vorangegangenen Kapitel und den Methoden und Analysen der folgenden 


Kapitel schlagen. 


Mit Hilfe von Satelliten können konvektive Zellen bereits früh in ihrem 
Cumulusstadium als schnell anwachsende Wolke identifiziert werden, de- 
ren optische Transparenz mit der Zeit abnimmt und deren Oberrand ei- 
ne rasche Temperaturabnahme verzeichnet (z.B. Mecikalski et al., 2011; 
Senf und Deneke, 2017; Zöbisch et al., 2020). Senf et al. (2015) zeigen für 
einige Fallbeispiele in Mitteleuropa, dass die Temperaturabnahme dabei kei- 
nen systematischen Zusammenhang zur vorhandenen latenten Instabilität ver- 
muten lässt und schreiben dies dem komplexen Terrain Mitteleuropas und 
den damit verbundenen Auslösemechanismen von Konvektion zu. Wie auch 
von Mecikalski et al. (2013) dargelegt, wird aufgrund der besseren Beob- 
achtungslage durch die Verfügbarkeit hochaufgelöster Satellitendaten deut- 
lich, dass eine Erweiterung des dreistufigen konzeptionellen Lebenszyklus- 
modells nach Byers und Braham (1948) notwendig ist: Als nulltes Stadium 
kann die Entwicklung konvektionsförderlicher, präkonvektiver Umgebungen 
angesehen werden. Neueste Satellitengenerationen können mit Hilfe von neu- 
er Messtechnik hochaufgelöste horizontale und vertikale Temperatur- und 
Feuchteprofile der Troposphäre bestimmen!, die beispielsweise Rückschlüs- 
se auf bodennahe Feuchteflusskonvergenzen als Voraussetzung für konvek- 
tive Initiierung ermöglichen (z.B. Kalthoff et al., 2009). Das Cumulussta- 
dium einer konvektiven Zelle kann nach den eingangs des Abschnitts ge- 
nannten Studien mit Satellitendaten ferner in zwei Stufen unterteilt wer- 
den: Die erste Stufe, die frühe Wachstumsphase, entspricht der anfängli- 
chen Intensivierung eines Aufwindbereichs. Sie endet, wenn die Rate der 


Temperaturabnahme an der Wolkenobergrenze abnimmt. Ihre beobachtete 


10 Siehe z. B.: https: //www.eumetsat.int/meteosat-third-generation 
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Dauer hängt eng mit dem Auslösemechanismus sowie den Detektionskri- 
terien der entsprechenden Algorithmen zusammen (Senf et al., 2015). Die 
zweite Stufe stellt eine erweiterte Wachstumsphase dar, deren Dauer im 
Allgemeinen zwischen 30 und 45 min liegt. Im erweiterten konzeptionellen 
Lebenszyklusmodell bleiben das Reife- sowie das Dissipationsstadium er- 
halten. Neben der Prazisierung der Beschreibung des Lebenszyklus einzel- 
ner konvektiver Zellen ermöglichen Satellitendaten auch eine gute Analy- 
se der Entwicklung von MCS. Beispielsweise gehen horizontal weit ausge- 
dehnte MCS mit einer großen Fläche von tiefen Temperaturen an der Wol- 
kenobergrenze sowie einer erhöhten Anzahl von Blitzen zwischen Erdbo- 
den und Wolke einher (Mattos und Machado, 2011). Zudem korreliert die 
Lebensdauer dieser konvektiven Systeme mit ihrer horizontalen Ausdeh- 
nung (z. B. Feng et al., 2012). 

Auch aus Daten von Niederschlagsradaren und den entsprechenden Zell- 
verfolgungsalgorithmen (s. Kapitel 4.1) konnten Charakteristika der Lebens- 
zyklen konvektiver Zellen identifiziert werden. MacKeen et al. (1999) ver- 
deutlichten jedoch bereits, dass verschiedene radarbasierte Beobachtungsgrö- 
Den sowie Kombinationen von diesen eine niedrige Korrelation mit der Le- 
bensdauer konvektiver Zellen aufweisen. Das Grundproblem ist ein großes 
Ungleichgewicht in der Anzahl von Zellen mit kurzer und langer Lebens- 
dauer — von letzteren treten weitaus weniger auf. Die abgeleiteten Eigen- 
schaften von Zellen mit kurzer und langer Lebensdauer unterscheiden sich 
nicht stark genug, um basierend auf der Statistik eine ausreichend schar- 
fe Vorhersage zu treffen. Zudem dominieren kurzlebige konvektive Zellen 
die Evaluation. Ähnliche Häufigkeitsverteilungen der Lebensdauer zeigen 
sich in vielen weiteren Studien (z. B.. Wilson et al., 1998; Davini et al., 2012; 
Meyer et al., 2013; Wapler, 2021). Davini et al. (2012) zeigten fiir Zellen in 
Norditalien, dass diese ihre maximale Intensität (genauer: den größten Radar- 
reflektivitätsfaktor; s. Kapitel 4.1.1) bereits in der ersten Hälfte ihres Lebens- 


zyklus erreichen. Dies bestätigten Brisson et al. (2018) auch für eine größere 
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Stichprobe von simulierten Zellen in einem numerischen Atmosphärenmo- 
dell. Die größte flächenhafte Ausdehnung entsteht nach Davini et al. (2012) 
hingegen erst in der zweiten Hälfte des Lebenszyklus. Darüber hinaus weisen 
die Autoren darauf hin, dass die anfängliche Wachstumsrate der Zellfläche 
ein Indikator für die zu erwartende Lebensdauer sein könnte. Untersuchun- 
gen von Weusthoff und Hauf (2008) und Wapler (2021) zeigen, dass der Ver- 
lauf der flächenhaften Ausdehnung einer konvektiven Zelle im statistischen 
Mittel gut durch eine nach unten geöffnete Parabel oder eine halbe Sinus- 
periode approximiert werden kann. Gleichzeitig ist die Variabilität einzelner 
Lebenszyklen sehr hoch, welche auf eine hohe Vorhersageunsicherheit hin- 
deutet (s. Kapitel 5.1 für detaillierte Informationen und Analysen hierzu). 

Blitzdaten sind besonders als Indikator für die Intensivierung konvektiver 
Zellen nützlich: Steigt die Anzahl von Blitzen in Verbindung mit einer 
konvektiven Zelle plötzlich schnell an (Lightning Jump), ist mit einer 
Intensivierung einer Zelle innerhalb der nächsten 15 — 30 min zu rech- 
nen (z.B. Mikuš Jurković et al., 2015; Wapler, 2017). Eine Konsequenz 
ist daher, dass konvektive Systeme, die mindestens einen sprunghaften 
Anstieg der Blitzanzahl aufweisen, eine längere Lebensdauer als solche 
ohne einen derartigen Anstieg haben (z.B. Chronis et al., 2015). Wie bereits 
während der theoretischen Beschreibungen der Lebenszyklen konvektiver 
Zellen (Kapitel 2.2.1 bis 2.2.4) und in Kapitel 2.3 deutlich wurde, spielen 
auch die atmosphärischen Bedingungen in der Umgebung konvektiver Zellen 
eine wichtige Rolle für deren Entstehung und deren Lebenszyklus durch 


verschiedene Prozesse und Wechselwirkungen. 


In den letzten Jahren wurden daher zunehmend Nowcasting-Verfahren 
entwickelt und erweitert, die Daten aus verschiedenen Messmethoden 
und numerischen Vorhersagemodellen im Sinne des Multi-Daten-Ansatzes 
kombinieren, den schon MacKeen et al. (1999) vorschlugen (vgl. Kapitel 1; 
Schmid et al., 2019). Während solche Verfahren (insbesondere ihre in- 


ternen Lebenszyklusmodelle) aufgrund der limitierten Verfügbarkeit 
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von Beobachtungsdaten konzeptionell zunächst recht einfach waren 
(z.B. Dixon und Wiener, 1993; Hand und Conway, 1995), hat ihre Kom- 
plexität in den letzten Jahren stark zugenommen. Mecikalski et al. (2015) 
zeigten, dass Verfahren aus der Statistik und dem maschinellen Lernen ein 
satellitenbasiertes Modell zur Erkennung der Auslösung von Konvektion 
durch die Berücksichtigung der latenten Instabilität in Form der CIN und der 
CAPE aus NWV-Vorhersagen signifikant verbessern können. Das System 
Context and Scale Oriented Thunderstorm Satellite Predictors Development 
(COALITION!!) des Schweizer Wetterdienstes MeteoSchweiz schätzt 
den Verlauf des Lebenszyklus fiir die nächste Stunde probabilistisch auf 
der Basis bestimmter Blitz-, Radar-, Satelliten- und NWV-Daten ab und 
berücksichtigt zusätzlich den Einfluss der Orografie (Nisi et al., 2014). Schon 
bis zu 20 min im Voraus kann damit die Intensität einer konvektiven Zelle gut 
vorhergesagt werden. Die relative Wichtigkeit der Radar- und NWV-Daten 
ist dabei höher als die von anderen Datenquellen (Hamann et al., 2019). 
Die Multi-Daten-Analyse von Zöbisch et al. (2020) zeigte für ausgewählte 
Umgebungsvariablen aus der NWV einen statistischen Zusammenhang 
zwischen der Lebensdauer konvektiver Zellen und der Luftfeuchte sowie 
der latenten Instabilität (CAPE), überraschenderweise nicht jedoch mit der 
vertikalen Windscherung. Der Nutzen der mittels Fernerkundungsmethoden 
bestimmten Variablen ist ihren Untersuchungen zufolge größer als der Nutzen 
der von ihnen betrachteten atmosphärischen Umgebungsvariablen. Sie schla- 
gen Untersuchungen mit weiteren Umgebungsvariablen und Kenngrößen 
vor, um potentiell besser geeignete Prädiktoren für Nowcasting-Verfahren zu 


identifizieren. 


' https: //www.meteoswiss.admin.ch/home/measurement -and-forecasting- 
systems/warning-and-forecasting-systems/nowcasting. subpage. html/en/ 
data/projects/2009/coalition.html 
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2.4 Lebenszyklen konvektiver Zellen und Multi-Daten-Ansatz 


Die Untersuchungen der vorliegenden Arbeit bewegen sich in diesem Be- 
reich des Multi-Daten-Ansatzes. Unabhängig von der Organisationsform 
konvektiver Zellen wird untersucht, welche Zellattribute und welche Um- 
gebungsvariablen für die Abschätzung des Lebenszyklus relevant sind. 
Dazu wird eine große Anzahl von sehr unterschiedlichen Umgebungs- 
variablen betrachtet. Statistische Verfahren, die sich für andere Frage- 
stellungen des Nowcastings bewährt haben (z.B. Mecikalski et al., 2015; 
Czernecki et al., 2019), werden auf ihr Potential untersucht, das Nowcas- 
ting des Lebenszyklus konvektiver Zellen durch das Einbeziehen von Umge- 
bungsvariablen aus NWV-Vorhersagen in einen Zellverfolgungsalgorithmus 
zu verbessern (s. Kapitel 3, 5 und 6). Damit liefert die vorliegende Arbeit 
einen wichtigen Beitrag im Rahmen der Optimierung von automatisierten 


Warnprozessen der Wetterdienste (vgl. Kapitel 1 und 7). 
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Zur Datenaufbereitung, zur Analyse der Lebenszyklen konvektiver Zellen 
und der mit ihnen assoziierten Umgebungsbedingungen sowie zur Entwick- 
lung von statistischen Vorhersageverfahren für verschiedene Eigenschaften 
konvektiver Zellen (Zellattribute) können prinzipiell viele unterschiedliche 
Methoden der Statistik und des maschinellen Lernens (Machine Learnings) 
verwendet werden. Die wichtigsten in der vorliegenden Arbeit genutzten Me- 
thoden werden in den folgenden Unterkapiteln vorgestellt. Die Untersuchung 
der Zusammenhänge zwischen unterschiedlichen Umgebungsvariablen ba- 
siert auf einer Korrelationsanalyse und einer Clusteranalyse (Kapitel 3.1 
und 3.2). 

Nach der Beschreibung dieser Methoden folgt eine Vorstellung von vier me- 
thodischen Ansätzen, die auf der Basis eines Datensatzes von Beobachtungs- 
daten eine statistische Vorhersage für verschiedene Attribute konvektiver Zel- 
len liefern können. Dazu gehört die lineare Regression, welche den linearen 
Zusammenhang zwischen einer kontinuierlichen abhängigen Variablen und 
einer oder mehreren unabhängigen Variablen beschreibt (Kapitel 3.3.1). Es 
folgt eine Darstellung der logistischen Regression, welche als nicht-lineare 
Methode den Zusammenhang zwischen einer abhängigen und meist binären 
Variablen und einer oder mehreren unabhängigen Variablen untersucht (Ka- 
pitel 3.3.2). Eine Erweiterung der linearen Regression stellt ein polynomieller 
Ansatz dar, der die nicht-lineare Abhängigkeit in Form eines Polynoms höhe- 
rer Ordnung beschreibt (Kapitel 3.3.3). Der sogenannte Random Forest, eine 


weitere Methode aus dem Bereich des maschinellen Lernens, bietet sowohl 
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die Möglichkeit der Vorhersage einer binären als auch einer kontinuierlichen 
abhängigen Variablen (Kapitel 3.4). Im Jargon des maschinellen Lernens mo- 
dellieren Klassifikationsverfahren diskrete Variablen, während Regressions- 
verfahren kontinuierliche Variablen modellieren. Die logistische Regression 
zählt in dieser Definition — anders als ihr Name andeutet - folglich zu den 
Klassifikationsverfahren. In den jeweiligen Kapiteln wird die Quantifizierung 
des Einflusses der einzelnen unabhängigen Variablen ebenfalls thematisiert. 

Kapitel 3.5 stellt Methoden vor, die der Aufbereitung von Datensätzen im 
Vorfeld der Anwendung eines statistischen Vorhersageverfahrens dienen. Ka- 
pitel 3 schließt mit der Einführung verschiedener Gütemaße, die eine An- 
wendung in der Analyse des Datensatzes und der Evaluation der statistischen 


Vorhersageverfahren finden (Kapitel 3.6). 


3.1 Korrelations- und 
Hauptkomponentenanalyse 


Die Korrelationsanalyse sowie die Hauptkomponentenanalyse können den 
Zusammenhang zwischen zwei Variablen x und dl quantifizieren. Die 
Hauptkomponentenanalyse ist darüber hinaus auf hochdimensionale Pro- 
blemstellungen anwendbar und dient allgemein als klassisches multiva- 
riates Verfahren auch zur Strukturierung und Reduzierung von Datensät- 
zen (z.B. Wilks, 2006) oder zur Komplexitätsreduktion numerischer Mo- 
delle (z.B. Selten, 1995; Achatz und Schmitz, 1997; Wilhelm, 2014). In der 
vorliegenden Arbeit dient sie lediglich der Veranschaulichung von bivariaten 
Korrelationen, während die hauptsächliche Reduzierung des Datensatzes auf 
der Basis anderer Methoden und Zusammenhänge erfolgt (s. Kapitel 5.2.2 
und 5.3.1). 
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3.1.1 Korrelationsanalyse 


Der empirische Produkt-Moment-Korrelationskoeffizient nach Pearson rp 
stellt ein Maß für den Grad des linearen Zusammenhangs zwischen zwei 
intervallskalierten Variablen x) und x) dar (z.B. Wilks, 2006): 
COV (i) ylk) 
rp = E (3.1) 
Oi) Ox(k) 
Darin beschreibt o. die empirische Standardabweichung der Variablen 


x (analog x®) gemäß 


IL 8/0 _0\? 
ou) = wahl — E ) (3.2) 


und cov (i) vun die empirische Kovarianz 
S O 30) (AR 
cov (i) dn = IT 3 (x! -39) be — x") (3.3) 


mit den empirischen Mittelwerten der Variablen x) und x und der Stich- 
probengröße N. Weichen die Verteilungen der Variablen x und x zu stark 
von der Normalverteilung ab und/oder existiert ein nicht-linearer Zusammen- 
hang zwischen den beiden, so liefert rp trotz eines möglichen kausalen oder 
statistischen Zusammenhangs niedrige Werte. 

In diesem Fall ist der empirische Rang-Korrelationskoeffizient nach Spear- 
man besser geeignet (Spearman, 1904). Der Rang des j-ten Elements der 
Stichprobe R EE 
in der rangskalierten Reihe, d.h. das Element mit dem niedrigsten Variablen- 


) für die Variable x() entspricht der Position des Elements 


wert x) erhält Rang 1, also R ES ) = 1, das mit dem zweitniedrigsten 


Jmin Jmin 
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Rang 2 etc. Damit folgt fiir den Rang-Korrelationskoeffizienten rs: 


COVR ,. R ik 
rs = — UA (3.4) 
OR i) OR 


Darin beschreibt or ,. die empirische Standardabweichung des Rangs R der 


dl 
Variablen x) (analog x®) gemäß 


Ra TA NI È |r GI -Ro i (3.5) 


und COVR (i) Rk) die empirische Kovarianz der Ränge 


comoro =z E RP) -Ro RC) Rw] 60 


mit den empirischen Mittelwerten der Ränge der Variablen R o) und R œ. 
Diese sind jedoch einfach 0,5 (N + 1), was nach einigen Umformulierungen 
unter der Annahme, dass jeder Rang nur einmal angenommen wird, und 
wegen OR unter Verwendung der Summenformel für die Summe 


TR, 


der ersten N natürlichen Quadratzahlen zu 


6X a(x’) -a (3) 


N (N—1) (N41) 


rs = (3.7) 
führt. Besitzen mehrere Elemente einer Variablen denselben Rang, kann 
man Gleichung (3.7) benutzen, indem man den Mittelwert der jeweiligen 
Ränge als Rang der betroffenen Elemente verwendet. Allerdings ist die 
Übereinstimmung mit Gleichung (3.4) nicht exakt, da dann im Allgemeinen 
OR (i) Æ OR (x) ist und die Summe aller quadrierten Ränge nicht mehr mit der 


Summe der natürlichen Quadratzahlen übereinstimmt. 
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Der Rang-Korrelationskoeffizient rs ist folglich ein parameterfreies Maß für 
die Korrelation, da weder Linearität des Zusammenhangs noch eine Normal- 
verteilung der Variablen vorliegen muss. Vielmehr kann er Korrelationen für 
beliebige monotone funktionale Zusammenhänge ohne Annahmen über die 
zugrunde liegenden Verteilungen bemessen. Ein weiterer Vorteil des Rang- 
Korrelationskoeffizienten rs gegenüber rp ist, dass er per Konstruktion ro- 
buster gegenüber Extremwerten und Ausreißern ist. 
Zur Prüfung der Korrelationskoeffizienten und Untersuchung der statistischen 
Signifikanz des Zusammenhangs zwischen zwei Variablen ist ein zweiseitiger 
Einstichproben-t-Test dienlich (Student, 1908; Wilks, 2006). Ist der Wert der 
Prüfgröße 

dr 1 (3.8) 
mit r = rp bzw. r=rs größer als der Wert der r-Verteilung mit einem Frei- 
heitsgrad f = N — 2 für ein bestimmtes Signifikanzniveau p (z.B. p = 0,01 
oder 0,05), so ist die jeweilige Korrelation statistisch signifikant bezüglich 
dieses Niveaus. Je kleiner p gewählt wird, desto strenger ist die Testung. 
Eine Alternative ist die Betrachtung von Konfidenzintervallen, welche mit 
Hilfe der Fisher-Transformation bestimmt werden können und den Werte- 
bereich von r abschätzen, der mit einer Wahrscheinlichkeit w = 1 — p den 
wahren Wert von r einschließt. w wird auch als Konfidenzniveau bezeichnet. 
Details hierzu finden sich beispielsweise in Kendall und Gibbons (1990) und 


Wilks (2006). 


3.1.2 Hauptkomponentenanalyse 


Die Hauptkomponentenanalyse ist ein strukturentdeckendes statistisches Ver- 
fahren, in dem die Achsen eines n-dimensionalen Raums orthonormal trans- 
formiert werden, sodass diese in Richtung der zu den Eigenwerten der po- 
sitiv semi-definiten, symmetrischen und diagonalisierbaren Kovarianzmatrix 


C (n x n-Matrix) gehörigen Eigenvektoren zeigen (z. B. Preisendorfer, 1988). 
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Die Kovarianzmatrix setzt sich aus den einzelnen Beiträgen analog zu Glei- 
chung (3.3) zusammen, d.h. C;x = cov i) „m, was für i = k mit Cik = Sé 
übereinstimmt. 


Die Vorschrift zur Eigenwertzerlegung lautet 
C=ELE '=ELE. (3.9) 


Darin enthält die orthogonale n x n-Matrix E spaltenweise die transformier- 
ten, orthonormalen Basisvektoren und L = A1 mit der Einheitsmatrix 1 die 
entsprechenden Eigenwerte A = (A,...,A,)’. Die Matrix L stellt zugleich 
die Kovarianzmatrix im transformierten System dar. Im Allgemeinen ist es 
möglich, diese Hauptachsentransformation bezüglich einer beliebigen sym- 
metrischen, positiv semi-definiten Metrik M durchzuführen, sodass gemäß 


Gleichung (3.9) folgende Eigenwertgleichung gilt: 
CME=EL. (3.10) 


Aufgrund der positiven Semidefinitheit von C und M gilt für die Eigenwer- 
te stets: A > 0. Die Achse, entlang derer der Eigenvektor zum höchsten Ei- 
genwert zeigt, wird als erste Hauptachse oder Hauptkomponente bezeichnet, 
welche zugleich den größten Anteil an der Gesamtstreuung abdeckt. 

Zur Darstellung eines beliebigen Datenpunkts x; durch die neue Basis 
betrachtet man die zentrierten ursprünglichen Koordinaten (Fluktuationen) 
WW In) 


Wues (er, )T. Die N x n-Matrix X’ enthält zeilenweise die 


Fluktuationen von N Datenpunkten und die N x n-Matrix A zeilenweise die 


(1) Di 


Koordinaten der Datenpunkte a: = (a joe; im transformierten Sys- 


tem. Damit lautet die Darstellung: 
X’ = AE? , bzw. 


x= F aen. (3.11) 


m=1 
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Die Koordinaten eines beliebigen Datenpunkts x; im transformierten Sys- 
tem erhält man mittels orthogonaler Projektion der Fluktuationen auf die 
Eigenvektoren unter Berücksichtigung von M. Aufgrund der Orthogonali- 
tät der Hauptkomponenten (EI ME = 1) lautet die Projektion wegen Glei- 
chung (3.11): 


A=X'ME , bzw. 
a”) =x'TMen . (3.12) 


Darüber hinaus gilt wegen Gleichung (3.9) bzw. (3.10) im Standardfall M = 1 


n 
Cx), = ELE" x), = A An (X en) €m - (3.13) 
m=1 
Die paarweisen Korrelationen entlang der Hauptkomponenten sind per Kon- 
struktion gleich Null (Preisendorfer, 1988). Die Varianz entlang des m-ten 
Eigenvektors €m entspricht somit dem m-ten Eigenwert Àm. Der Anteil dieser 
Varianz an der Gesamtstreuung OG ist folglich: 


Gen Am (3.14) 


Zur Eliminierung der Variablendimensionen und Normierung des Wertebe- 
reichs unterschiedlicher Variablen bietet es sich häufig an, vor der Hauptach- 


sentransformation die Eingangsdaten über die Vorschrift 


e ae (3.15) 
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zu transformieren. Diese Transformation wird als Standardisierung oder 
z-Transformation bezeichnet und kombiniert eine Zentrierung und eine Ska- 
lierung der Daten. Es handelt sich dabei um eine monotone Transformati- 
on, welche die Ordnung der Elemente erhält Das bedeutet, dass der Rang- 
Korrelationskoeffizient nach Spearman rs zwischen zwei Variablen invariant 
bezüglich dieser Transformation ist. Darüber hinaus erhält sie die Schiefe der 
Verteilung der Werte von x), 

Nach der z-Transformation ist Gu = 1, die Kovarianzmatrix entspricht daher 
der Korrelationsmatrix und es gilt: Ga = n. Erscheint im Spezialfall n = 2 
fiir M = 1 im Streudiagramm die durch die beiden Hauptachsen aufgespannte 
30-Ellipse näherungsweise als Kreis, so sind beide Achsen etwa gleichwertig 
und die lineare Korrelation der beiden Variablen ist gering. Im Fall einer 
idealen Normalverteilung liegen rund 98,9 % der Datenpunkte innerhalb der 
30-Ellipse (Wang et al., 2015). 


3.2 k-Medoids-Clustering 


Clusterverfahren ordnen Datenpunkte eines n-dimensionalen Raums einer be- 
stimmten Anzahl von Gruppen (Nc) zu und sind somit strukturentdeckende 
Verfahren. Die Gruppenanzahl Nc ist in der Regel a priori nicht bekannt. Die 
Zuordnung zu den Gruppen, die Cluster genannt werden, erfolgt aufgrund von 
Gemeinsamkeiten und Unterschieden der Datenpunkte (z.B. Wilks, 2006). 
Man unterscheidet hierarchische und nicht-hierarchische Clusterverfahren. 
Erstere erlauben während des Verfahrens keine neue Zuordnung von bereits 
einer Gruppe zugeordneten Datenpunkten, während letztere dies ermögli- 
chen. Beide Verfahrenstypen benötigen jedoch eine Abstands- oder Dissimi- 
lationsmetrik 9, welche die Unterschiede zwischen Datenpunkten charakte- 


risiert. 
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Ein häufig verwendetes nicht-hierarchisches Clusterverfahren ist das k- 
Means-Clustering (Lloyd, 1982!; MacQueen, 1967). Dieses teilt einen Da- 
tensatz dergestalt in Nc Cluster ein, dass die Summe der quadrierten Ab- 
weichungen der Datenpunkte von den Schwerpunkten der Cluster mini- 
mal ist, d.h. das Verfahren minimiert auch die Summe der Varianzen der 
Cluster. Dafür muss die Dimensionalität des Raums bekannt sein, um die 
Schwerpunkte zu definieren und die Abweichungen von ihnen zu berech- 
nen. Ist allerdings einzig eine Dissimilationsmatrix D bekannt, welche die 
Abstände von No Objekten O zueinander beinhaltet, muss auf ein ver- 
wandtes Clusterverfahren, das sogenannte k-Medoids-Clustering zurückge- 
griffen werden (Kaufman und Rousseeuw, 1990). Der entwickelte Algorith- 
mus wird auch als Partitioning Around Medoids (PAM) bezeichnet und kon- 
vergiert mit beliebigen Dissimilationsmetriken. Als Schwerpunkte der Clus- 
ter dienen hier vorhandene Objekte (Medoide). Das Verfahren minimiert 
die Summe der Abstände zwischen den Medoiden und den übrigen Clus- 
terobjekten und ist damit robuster gegenüber Ausreißern als das k-Means- 
Clustering (z. B. Hastie et al., 2009). 

Der sogenannte Silhouettenkoeffizient s beschreibt die Giite der Zuordnung 
durch das k-Medoids-Clustering (Rousseeuw, 1987). Dieser Koeffizient kann 
jeden Cluster einzeln (54), oder alle Cluster gemeinsam (S) als arithmetisches 


Mittel der einzelnen Silhouetten der Objekte bewerten: 


< 1 ER 

Bas zs kb CT a (3.16) 
he 

= "E Ze 

S= ) 5: (3.17) 


! Die Veröffentlichung in einer Zeitschrift erfolgte 1982, 25 Jahre nach der Verschriftlichung in 
einem Arbeitsbericht. 
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Darin ist no die Anzahl der Objekte im g-ten Cluster. Die Silhouette des 


k-ten Objekts 09 im Cluster C, ist über 


0 falls N® =1, 
di Ss GC o 0) 9(c4,0 o (3.18) 
(a) sonst 
max [7 (c, O% ), 4 D(C, o! d 


definiert. Darin entspricht C, demjenigen Cluster (der nicht C selbst ist), 
dessen Objekte dem Objekt o® im arithmetischen Mittel bezüglich der Dis- 


similationsmetrik Y am nächsten liegen. Der Balken über kennzeichnet, 


dass in Gleichung (3.18) jeweils der arithmetische Mittelwert der Distanzen 


von of zu allen im jeweiligen Cluster befindlichen Objekten (außer dem Ob- 


jekt selbst) gemeint ist. Ist di a) 


beste Entscheidung, ist sa 4) < 0, so liegen die Objekte im Cluster C, im Mittel 


näher an ol) als diejenigen in Cluster C4. Ist für einige Objekte ail < 0, so 


@ 59, so 


> 0, so ist die Zuordnung zum Cluster C, die 


ist Nc zu hoch oder zu niedrig gewählt. Ist für die meisten Objekte s 
ist die Clusterkonfiguration eine gute Wahl. Eine starke (mittlere, schwache) 
Strukturierung liegt dann vor, wenn s € 9 € [0,75; 1] ([0,5; 0,75), [0,25 ; 0,5)) 
ist. 

Eine grafische Darstellung des Clusterings zur einfacheren Interpretierbar- 
keit der Ergebnisse ist durch die Anwendung einer multidimensionalen Ska- 
lierung möglich (Pison et al., 1999). Dieses Verfahren schätzt die räumliche 
Konfiguration der Objekte O aus den paarweisen Distanzen ab, also die Posi- 
tionierung der Objekte zueinander. Prinzipiell kann das Verfahren diese Kon- 
figuration in hochdimensionalen Räumen bis zu einer maximalen Dimensio- 
nalität von No — | bestimmen. Meist findet jedoch eine Abbruchbedingung 
Verwendung, welche die Skalierung in einem möglichst niedrigdimensiona- 
len Raum beendet, wenn dieser die Abstände der Objekte in sehr guter Nähe- 
rung abbilden kann. Diese Bedingung begrenzt folglich die Dimensionalität 


des geschätzten Raums und erleichtert damit häufig die Interpretierbarkeit 
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der Ergebnisse. Die Darstellung der Objekte und der berechneten Cluster ge- 
schieht abschließend entlang der ersten beiden Hauptachsen des geschätzten 
Raums (vgl. Kapitel 3.1.2). Details zur multidimensionalen Skalierung finden 
sich z. B. in Backhaus et al. (2015). 


3.3 Statistische Verfahren zur Vorhersage 


Bei der Entwicklung von statistischen Vorhersageverfahren auf Basis ei- 
nes (historischen) Datensatzes wird allgemein ein statistisches Modell er- 
stellt, welches Schätzungen einer abhängigen Variablen anhand von bekann- 
ten oder ebenfalls durch ein Modell geschätzten unabhängigen Variablen lie- 
fert. Dazu ist es allgemein erforderlich, eine Aufspaltung des Datensatzes in 
zwei voneinander unabhängige Datensätze vorzunehmen. Einer der beiden 
Datensätze (Trainingsdatensatz) dient der Bestimmung der jeweiligen Mo- 
dellparameter (Modellbildung), während anhand des anderen (Testdatensatz) 
die Vorhersagegüte des jeweiligen Modells evaluiert wird. Die in der vor- 
liegenden Arbeit verwendeten Verfahren zählen zu den Methoden des über- 
wachten Lernens (Supervised Machine Learning), bei denen in den Trainings- 
datensätzen die abhängigen Variablen bekannt sind. Die folgenden Unterka- 
pitel stellen den mathematischen Formalismus zur Modellbildung der ver- 
schiedenen statistischen Verfahren vor und erläutern Aspekte zur Evaluation 


und Interpretation. 


3.3.1 Lineare Regression 


Zusammenhänge zwischen einer kontinuierlichen abhängigen Variablen y 
und einer oder mehreren kontinuierlichen unabhängigen Variablen x werden 


nicht nur in der Meteorologie häufig auf der Basis einer (multiplen) linearen 
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Regression untersucht (z. B. Draper und Smith, 1998). Dieses strukturpriifen- 
de statistische Verfahren folgt dem Ansatz 


Nx 
yp =Ixj) ter HI FY bx Ae. (3.19) 

i=l 
Der j-te von N Beobachtungswerten der Variablen y, die in diesem Ansatz 
auch Regressand oder Prädiktand heißt, wird durch einen Schätzwert ĵ(x;) 
und ein Residuum e: dargestellt. Die Abschätzung von $(x;) erfolgt durch 
eine Linearkombination der N, unabhängigen Variablen, welche hier als 
Regressoren bzw. Prädiktoren fungieren. Um die Modellparameter b dieses 
inversen Problems analytisch zu bestimmen, erfolgt eine globale Optimierung 
durch die Minimierung der Summe der quadratischen Fehler (Methode der 
kleinsten Quadrate). Dies entspricht in Matrixnotation der Minimierung der 


Kostenfunktion 
J(b) = |lel? = |y- 91? = Ily- Xb]? , (3.20) 


in der X die N x (N, + 1)-Datenmatrix darstellt, welche in vielen Lehrbiichern 
den Namen Designmatrix trägt. Die doppelten Striche (|| - ||) charakterisieren 
die Norm eines Vektors. In der Praxis ist es Usus, die euklidische Norm zu 
benutzen. Die erste Spalte von X enthält Einsen, während die übrigen Spal- 
ten die Werte der Prädiktoren 2 für die N Beobachtungen beinhalten. y 
ist ein N-Spaltenvektor, der die bekannten Beobachtungswerte des Prädik- 
tanden enthält, und b der (N, + 1)-Spaltenvektor, der alle zu bestimmenden 
Modellparameter enthält. Die Minimierung führt auf die sogenannte Normal- 


gleichung (z.B. Zeidler et al., 2012) 
X’Xb=X’y (3.21) 


mit der Lösung 
b= (X'X) 'XTy=Xty. (3.22) 
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Darin bezeichnet X* die (Moore-Penrose-)Pseudoinverse der De- 
signmatrix. Sind die Spaltenvektoren von AIX linear unabhängig, 
d.h. rang(X?X) = N, +1, so ist diese Matrix invertierbar und für 
Gleichung (3.22) existiert eine eindeutige Lösung. Dies ist demnach 
für linear unabhängige Prädiktoren der Fall. Numerisch wird b meist über 
das Cholesky-Verfahren ermittelt (Zeidler et al., 2012). 


Die Modellparameter b, auch Regressionskoeffizienten genannt, haben eine 
besondere Bedeutung, da sie den marginalen Effekt der Änderung der Prädik- 
toren auf den Prädiktanden angeben (z. B. Backhaus et al., 2016). Wurden die 
Prädiktorwerte vor der Regression auf die gleiche Variationsskala gebracht, 
wie z. B. mit einer z-Transformation gemäß Gleichung (3.15), so kennzeich- 
nen sie die relative Bedeutung der einzelnen Prädiktoren. Diese wird auch 
als Wichtigkeit der Prädiktoren bezeichnet (Predictor Importance). Im Fall 
unterschiedlicher Variationsskalen stellt der standardisierte Regressionskoef- 
fizient DU) = Kilo Gm die Wichtigkeit des i-ten Prädiktors dar. Eine Nor- 
mierung mit Oy ist zum Vergleich der Wichtigkeit nicht zwingend notwendig. 
Zur Quantifizierung der Güte des Regressionsmodells sind verschiedene Ma- 
ße nützlich. Eines davon ist der Mean Squared Error (MSE), welcher den 


mittleren quadratischen Fehler beschreibt und allgemein durch 


N N 
MSE = Ge D b-a) = e 3 € = S SSE (3.23) 
mit N = N — N, — 1 und der Summe der quadratischen Fehler (Sum of 
Squared Errors; SSE) gegeben ist. Die Normierung mit N — N, — 1 geht darauf 
zurück, dass man für die Fehlervarianz einen Bias-freien Schätzwert erhalten 
möchte (vgl. Wilks, 2006). Häufig findet auch der Root Mean Squared Er- 
ror (RMSE) Anwendung, wobei gilt: RMSE = VMSE. 
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Gebräuchlich ist zudem das Bestimmtheitsmaß R?, welches durch 


R E 
Pe l ee (3.24) 


gegeben ist. Darin stehen die Sum of Squares (total, SST) und die Regression 
Sum of Squares (SSR) für die Summe der quadratischen Abweichungen 
der Beobachtungen bzw. der Schätzungen um das beobachtete arithmetische 
Mittel: 


N 

SST =} Daf (3.25) 
j=l 
= 2 

SSR = } tsch, (3.26) 
j=l 


Das über den Parametersatz eindeutig definierte Modell kann im Anschluss 


auf einen unabhängigen Testdatensatz angewendet werden. 


3.3.2 Logistische Regression 


Das lineare Regressionsmodell aus Gleichung (3.19) ist generell auf binäre 
abhängige Variablen y anwendbar, d.h. mit einem Prädiktanden, der nur 
zwei verschiedene Werte annehmen kann (z.B. 0 und 1). Dies ruft jedoch 
einige Schwierigkeiten hervor. Die Schätzwerte des Prädiktanden $(x;) sind 
beispielsweise nicht begrenzt, und die Residuen e: sind im Allgemeinen nicht 


normalverteilt, da für sie gilt: 
ej = 1—B; =1—$(x;)) [1-9(x,)]'™ . (3.27) 


Die Abkürzung B; steht darin für die Bernoulli-Verteilung B |y; | §(x;)]. Eine 
zentrale Annahme bei der Anwendung der Methode der kleinsten Quadrate 


ist jedoch eine Normalverteilung der Residuen (z. B. Wilks, 2006). 
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Die (multiple) logistische Regression bedient sich desselben linearen An- 
satzes aus Gleichung (3.19) wie die lineare Regression, jedoch wird 
nicht die Variable y € {0;1} selbst als Prädiktand mit dem linearen An- 
satz geschätzt. Stattdessen ermöglicht die sogenannte Logit-Transformation 
Z eine Kopplung zwischen der (begrenzten) geschätzten Wahrschein- 
lichkeit p(y = 1 | x = xj) = f(y; = 1) und der (unbegrenzten) Linear- 
kombination der unabhängigen Variablen x; mit der Transformationsvor- 
schrift (Hosmer und Lemeshow, 2000) 


vl 
£p(yj =1) =n ZC, | (3.28) 
1-6; =1) 
und dem Ansatz H 
Lpyj=1) =+) DO” | (3.29) 


Dies entspricht gerade der Schätzung des natürlichen Logarithmus der Chan- 
ce (Odds) O;, welche dem Wahrscheinlichkeitsverhältnis der Eintrittswahr- 
scheinlichkeit eines Ereignisses und deren Gegenwahrscheinlichkeit ent- 
spricht (vgl. Kapitel 3.6.1): 


gx Du = de = (3.30) 
J 


Aus den Gleichungen (3.19) und (3.28) lässt sich der neue Schätzwert p; = 


p(y; = 1) bestimmen: 


Ne fe 
exp (ur +) SEN 
i=l 


Îj = Ny 
io D E SEN 
il 


1 Ny 5 F 
1+tanh E fuo + Fen D) . (3.31) 
i=1 
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Argument der Exponentialfunktion 


Abbildung 3.1: Exemplarischer Verlauf einer logistischen Funktion f(s) = ei (I+e')"!. 


Eine solche Funktion gehört zur Klasse der Sigmoidfunktionen 
und wird auch als logistische Funktion bezeichnet (Abbildung 3.1; 
z.B. Backhaus et al., 2016). Der beobachtete Wert des Prädiktanden ist 


Pi=sPVi=l)=6,1=Jj (3.32) 
mit dem Kronecker-Delta 


0 falls p~q 


Ôpg = , 
1 fallsp=q 


(3.33) 


Die Residuen sind wiederum e: = p; — pj, für die Gleichung (3.27) analog 
mit der Wahrscheinlichkeitsverteilung B; = Bin: | p;) gilt. Unter Verwen- 
dung von Gleichung (3.31) folgt daraus: 


Ne os Mi 
exp (ur + L adi 


(3.34) 
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Auch diese Residuen sind im Allgemeinen nicht normalverteilt, sodass 
die Bestimmung der Modellparameter b mit der Methode der kleins- 
ten Quadrate fiir die logistische Regression nicht geeignet ist. Statt- 
dessen findet die sogenannte Maximum Likelihood-Methode Anwen- 
dung (z.B. Backhaus et al., 2016), die eine Maximierung der gemeinsamen 
Wahrscheinlichkeitsverteilung A (Joint Likelihood) bzw. deren Logarithmus 
L (Log-Likelihood) über alle N Datenpunkte anstrebt: 


N 
L=In(A) =In (11 o . (3.35) 
j=l 
Die Maximierung geschieht in der Praxis in der Regel iterativ. 


Ist für eine Vorhersage a posteriori eine Transformation des Schätzwerts 
pj = p(y = 1 | x = xj) in den ursprünglichen Wertebereich des Prädiktanden 


{0; 1} erwünscht, so geschieht dies über die Vorschrift 


0 falls pj <p 


IX) = (3.36) 


1 falls pj >p 
Darin stellt u € [0; 1] einen Trennwert für die Wahrscheinlichkeit dar, 
den eine Vorhersage mindestens erreichen muss, damit die transformierte 
Vorhersage ¥(x;) = 1 lautet. Im Folgenden wird u daher als Entschei- 
dungstrennwert (Decision Threshold) bezeichnet. In der praktischen 
Anwendung dient u als Tuning-Parameter für binäre Vorhersagen basierend 


auf logistischen Regressionsmodellen (s. Kapitel 3.6.1 und 6.2.2). 


Im Gegensatz zur linearen Regression ist ein Schluss von den Regressions- 
koeffizienten b bzw. b auf den marginalen Effekt oder die relative Wichtig- 
keit der Prädiktoren in der nicht-linearen logistischen Regression nicht direkt 


möglich. Stattdessen bedient man sich der Chance O; aus Gleichung (3.30), 
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welche sich mit Gleichung (3.31) zu 
Ne am 
O; =exp | b© + L Hi (3.37) 


vereinfachen lässt. Eine Erhöhung des Werts des i-ten Prädiktors um eine Ein- 
heit führt darin offensichtlich zu einem zusätzlichen Faktor exp (29) . Dieser 
wird als Effekt-Koeffizient Ex bezeichnet. Ist die Variationsskala der Prädik- 
toren unterschiedlich, so betrachtet man entsprechend den standardisierten 
Effekt-Koeffizienten Ex = exp ER oul = ES, Negative Werte von b 
führen zu 0 < Ex < 1. Die Wichtigkeit des Prädiktors kann in diesem Fall 
iiber den Kehrwert von Ex bzw. Ex abgeschätzt werden. 

Im Gegensatz zur linearen Regression und der Methode der kleinsten Qua- 
drate ist die Berechnung eines Bestimmtheitsmaßes zur Quantifizierung der 
Güte des logistischen Regressionsmodells nicht möglich. In der Literatur fin- 
den sich viele Vorschläge für sogenannte Pseudo-Bestimmtheitsmaße, auch 
Pseudo-R? genannt, die auf A bzw. L, der Korrelation oder der erklärten 
Variation basieren (z.B. Veall und Zimmermann, 1996). Die Werte der ver- 
schiedenen Maße können innerhalb eines Modells stark variieren, sodass zur 
robusteren Einordnung der Güte eine kombinierte Betrachtung von mehre- 
ren Pseudo-Bestimmtheitsmaßen sinnvoll ist. Veall und Zimmermann (1996) 
zeigen, dass das Pseudo-R” von McKelvey und Zavoina (1975) als beste Ap- 
proximation angesehen werden kann. Hosmer und Lemeshow (2000) hinge- 
gen betonen, dass sie die Verwendung der Pseudo-Bestimmtheitsmaße nicht 
empfehlen, da sie nicht wie das reguläre Bestimmtheitsmaß R? die Anpas- 
sungsgüte des Modells beurteilen. Weil die logistische Regression in der vor- 
liegenden Arbeit nicht nur diagnostisch, sondern auch prognostisch Anwen- 


dung findet, werden keine Pseudo-Bestimmtheitsmaße berechnet. Stattdessen 
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kommen andere Gütemaße zur Evaluierung von binären Klassifikationsver- 
fahren zum Einsatz, die auf dem Vergleich zwischen Vorhersage und Beob- 
achtung basieren (s. Kapitel 3.6.1). Damit ist auch ein direkter Vergleich mit 


dem Vorhersageverfahren des Random Forests möglich (vgl. Kapitel 3.4). 


3.3.3 Nicht-linearer Polynomansatz 


Eine nicht-lineare Erweiterung des linearen Ansatzes in Gleichung (3.19) mit 
einem kontinuierlichen Prädiktanden y ist durch einen Polynomansatz der 


Ordnung N, für N, unabhängige Variablen x gegeben: 


(i) 
yj=Sxj)te= A. bx Aer. (3.38) 


Die Summe ist so zu verstehen, dass i alle N,-Tupel (ir) annehmen kann, für 


die gleichzeitig gilt: 


min{(ix)] 20, 


max|(ix)] < Np , 
Ny 


Kë, 

k=1 
Darin sei i, der k-te Eintrag des i-ten N,-Tupels (ix). Außerdem sei der i-te 
Prädiktor durch 

e Ny im 
M=T] ez) (3.39) 

m=1 
dargestellt. Die Gesamtanzahl von Prädiktoren N „, ist in diesem Ansatz über 
den Binomialkoeffizienten 


Np +N; 
Ges e ‘) = (3.40) 
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berechenbar. Für N, = 1 ist dieser Ansatz identisch mit dem linearen An- 
satz aus Gleichung (3.19), in dem Npo = N, ist. Für einen quadratischen An- 
satz (N, = 2) mit zwei unabhängigen Variablen x) und x(2) (N, = 2) gilt 


beispielsweise: 


(ix) €{(0,0); (1,0); (0,1); (2,0); (0,2); (1,1)} 


4 
> Noo = (5) -1=5, (3.41) 


2 
$502) au. (3.42) 


Der nicht-lineare Ansatz bildet sowohl höhere Potenzen der einzelnen un- 
abhängigen Variablen als auch kombinierte Mischterme ab. Daher sind in 
diesem Ansatz nicht-lineare Abhängigkeiten zwischen den Prädiktoren vor- 
zufinden. Um potentielle Instabilitäten der Lösung dieses inversen Pro- 
blems zu dämpfen, empfiehlt es sich, eine Regularisierung im Minimie- 
rungsverfahren anzuwenden (z.B. Nakamura und Potthast, 2015). Die soge- 
nannte Tikhonov-Phillips-Regularisierung (Tikhonov, 1963; Phillips, 1962), 
meist nur Tikhonov-Regularisierung genannt, erweitert die Normalglei- 
chung (3.21) auf 

(X’X+oP’P)b=X’y. (3.43) 


Die Designmatrix X hat hier Noa + 1 Spalten und b ebenso viele Einträge. 
Diese Modifikation bedeutet, dass man die Methode der kleinsten Quadrate 


mit einer zusätzlichen Straffunktion (Penalty Function) anwendet: 
J(b) = |ly— Xb||? + @||Pb||? . (3.44) 


Der Parameter œ > 0 wird Regularisierungsparameter genannt. Für & = 0 
entspricht Gleichung (3.44) der nicht regularisierten Kostenfunktion in Glei- 
chung (3.20) für die ungedämpfte Lösung. Dominiert der Strafterm, so 
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ist man vom urspriinglichen Problem weit entfernt. Hansen (2010) und 
Nakamura und Potthast (2015) schlagen beispielsweise verschiedene Metho- 
den zur optimalen Bestimmung von & vor, unter anderem basierend auf den 
Residuen €. Oft genügt es in der Praxis jedoch, verschiedene Werte zu testen. 
Die approximative Lösung für den Parametervektor bg ergibt sich analog zu 
Gleichung (3.22) über 


ba = (X’X+aP’P) "Six (3.45) 
bzw. im Standardfall P = über 
ba = (X’X+a1) "Six, (3.46) 


Die Inverse von XTX + «1 existiert für jede beliebige Designmatrix und be- 
liebige Werte von & > 0 (Nakamura und Potthast, 2015). Zur Vermeidung 
der numerischen Matrixinversion bietet sich eine Singulärwertzerlegung von 
X7 an (z.B. Zeidler et al., 2012). Ähnlich der Eigenwertzerlegung in Glei- 
chung (3.9) lautet die Vorschrift zur Singulärwertzerlegung, die eine Verall- 


gemeinerung zur Diagonalisierung nicht-quadratischer Matrizen darstellt, 
X" = ELE} = ELE} , (3.47) 


worin der Stern (*) die Adjungierte einer Matrix kennzeichnet, die im Fall 
reellwertiger Einträge der Transponierten entspricht. Ez ist eine unitäre (hier: 
orthogonale) quadratische Matrix mit N Zeilen und Spalten, welche die soge- 
nannten linken Singulärvektoren el!) enthält, Er eine unitäre (hier: orthogo- 
nale) quadratische Matrix mit Npo + 1 Zeilen und Spalten, die die rechten Sin- 
gulärvektoren el) enthält. L ist eine Diagonalmatrix, deren Einträge den Sin- 
gulärwerten (erste rang(X) Diagonaleinträge) bzw. 0 (alle darauffolgenden 
Diagonaleinträge) entsprechen. Die Darstellung von bg bezüglich der Sin- 


gulärbasis mit dem singulären System aus Singulärwerten sowie linken und 
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rechten Singulärvektoren EI el!) ; el” ) ist analog zu den Gleichungen (3.11) 
und (3.12) 


rang(X) rang(X) 
£ (ba . eil w= a [(x7x+ a1) 'xTy- di el 
m=1 m=1 
rang(X) 
= È m|(X’X+a1) 'y-e leh, 648 


m=1 
da zudem in Analogie zu Gleichung (3.13) 


rang(X) e f 
Kat: = 8 Ain (y i ef’) el”) (3.49) 


m=1 


gilt und die Singulärvektoren orthonormale Basen bilden, d. h. unter anderem 
el” ) „e0 = Ön, m gilt. Die Eigenwerte der Inversen der quadratischen Matrix 
XTX mit N po + 1 Zeilen und Spalten sind zudem gleich den inversen Eigen- 
werten der Matrix, welche darüber hinaus mit dem Quadrat der Singulärwer- 
te von XT übereinstimmen (Zeidler et al., 2012). Somit muss elementweise 
gelten, dass die Projektion des Parametervektors auf den m-ten rechten Sin- 


gulärvektor 


(r) Am (1) 
boe u = y: em (3.50) 
"PT +0 ( ) 


ist. Die approximative Lösung für den Parametervektor ergibt sich daher 


schließlich zu 
rang(X) 


SS An OK 
ba = = ia (¥en) en (3.51) 


Für diesen Polynomansatz treten per Konstruktion starke Abhängigkeiten 
zwischen den Prädiktoren auf (Kollinearität), beispielsweise zwischen xl) 


E 
und (x) . Zur Untersuchung der relativen Wichtigkeit der unabhängigen 


Variablen empfiehlt es sich daher, zunächst den linearen Ansatz ungedämpft 
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über Gleichung (3.19) oder gedämpft über Gleichung (3.38) mit N, = 1 anzu- 
wenden. Für N, > 1 ist die Interpretation einzelner Regressionskoeffizienten 
bei der Anwesenheit von Kollinearität nicht mehr klar, auch wenn diese den 
gemeinsamen Effekt nicht beeinflusst (Harrell, 2015). Für den Zweck der rei- 
nen Vorhersage mittels eines nicht-linearen Polynomansatzes spielt die Kol- 
linearität demzufolge eine geringe Rolle, solange das Verfahren zur Schät- 
zung der Regressionskoeffizienten stabil bleibt. Analog zur linearen Regres- 
sion können zur Evaluation eines nicht-linearen Polynomansatzes prinzipiell 
die üblichen Maße wie der MSE bzw. RMSE oder das Bestimmtheitsmaß R? 
in Gleichung (3.24) sowie weitere Gütemaße (s. Kapitel 3.6.2) herangezogen 


werden. 


3.4 Der Random Forest 


Random Forests als Vorhersageverfahren des maschinellen Lernens basie- 
ren auf sogenannten Entscheidungsbäumen. Um ihr Konzept zu verste- 
hen, folgt zunächst eine Erläuterung der Idee und des mathematischen For- 
malismus für baumbasierte Methoden. Man unterscheidet Klassifikations- 
und Regressionsbäume. Erstere modellieren diskrete abhängige Variablen 
und letztere kontinuierliche abhängige Variablen. Der Formalismus der so- 
genannten CART-Methode (Classification and Regression Trees) wird zu- 
nächst anhand der Regressionsbäume in Anlehnung an Hastie et al. (2009), 
James et al. (2013), Kuhn und Johnson (2013) und Hatz (2018) vorgestellt. 


3.4.1 Regressionsbäume 


Baumbasierte Methoden teilen den N,,-dimensionalen Zustandsraum 2 der 
unabhängigen Variablen x, welche in der Regel gleichzeitig die Prädiktoren 
darstellen, in Nm viele N,.-Hyperrechtecke (Orthotope) auf, welche im Fol- 
genden die Abkürzung 28 (m) erhalten. Für jedes der Orthotope wird ein kon- 


stanter Schätzwert des Prädiktanden $(x) bestimmt. Als nützlich erweist sich 
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dazu die Indikatorfunktion 


0 falls x dA” ; 
1 (x) =1 (xe) = i 32) 
1 falls x € Z0” 


Damit lässt sich ein einfaches Baummodell über 


Nm 
yj = Hx) te= YIM (xs) +e; (3.53) 


m=1 


mit den Konstanten bm) definieren. Die Konstruktion der Orthotope wird 
durch rekursives binäres Aufteilen (Splitting) durchgeführt, d.h. zunächst 
wird der Zustandsraum in zwei Unterräume aufgeteilt, welche im Anschluss 
jeweils in zwei weitere Unterräume aufgeteilt werden und so weiter (Abbil- 
dung 3.2). Splits in mehr als zwei Unterräume (Multi-Splits) sind nicht üb- 
lich, da so die Anzahl von Datenpunkten in den Orthotopen zügig abnimmt 
und nur wenige Splitebenen entstehen. Darüber hinaus lässt sich jeder Multi- 
Split durch eine Verkettung von binären Splits darstellen. Die grundlegenden 
Freiheitsgrade in der Konstruktion eines Baums sind folglich (i) die Varia- 
blenauswahl für jeden Split s, (ii) die Wahl des Trennwerts t, für den Split s 
und (iii) die Topologie des Baums, d. h. über wie viele Splitebenen ein Baum 
wachsen darf und wann kein weiterer Split vorgenommen wird (Abbruchbe- 
dingung). 

Wie bei der linearen Regression in Kapitel 3.3.1 wird die Methode der kleins- 
ten Quadrate zur theoretischen Bestimmung der optimalen Modellparameter 


b angewendet, hier auf die Kostenfunktion 
J(b) = |Iy-Ibl?, (3.54) 


mit der N x N,,-Indikatormatrix I, deren Eintrag in der j-ten Zeile und m- 
ten Spalte gerade 7 (m) (xj) entspricht. Sie besteht folglich nur aus Nullen 


und Einsen, wobei jede Zeile aus einer Eins und Nm — 1 Nullen besteht, 
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X = (X1,X>) 


Abbildung 3.2: Illustration (a) eines beispielhaften Entscheidungsbaums mit Npo = Ny = 2 Prä- 


diktoren und N = 5 Zwei-Orthotopen 20”) über N, = 3 Splitebenen (grün: Splitbedingung 
erfüllt; rot: nicht erfüllt) und (b) der entsprechenden Aufteilung im zweidimensionalen Zustands- 
raum mit den dazugehörigen Variablentrennwerten z,. Nach Hastie et al. (2009). 


und zählt daher zur Klasse der Indexmatrizen (z.B. Atanassov, 2014). Der 


Parametervektor b ergibt sich demnach zu 
b = (PT) 'I’y = [diag(N„)] ' Iy = diag (Ne, (3.55) 


d.h. die Inverse von ITI ist stets wohldefiniert, weil N, > 0 für alle m 
ist (s. u.). Da aber 


N 
(sl, = $ y (x) (3.56) 
jal 
gilt, folgt: 
1 N 
b™ = — VP yl (x) =. (3.57) 
Nm j=l 
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Fiir das m-te Orthotop ist der Modellparameter b0”) und somit auch der 
optimale Schätzwert des Prädiktanden $(x) mit x € 2”) folglich einfach 
durch das arithmetische Mittel derjenigen Werte des Prädiktanden gegeben, 


die unter x € Z0”) beobachtet wurden. 


Eine derartige Bestimmung ist in der Praxis jedoch nicht umsetzbar, da a prio- 
ri die Orthotope Z (m) sowie deren Anzahl Nm nicht bekannt sind und ein Test- 
verfahren über alle möglichen Realisierungen in der Regel geeignete Zeit- 
skalen für die Rechenzeit weit überschreitet. Zwar existieren Vorschläge zur 
globalen Optimierung von Entscheidungsbäumen (z. B. Norouzi et al., 2015), 
jedoch basieren Algorithmen für Random Forests weitestgehend auf einer 
schrittweisen Minimierung für jeden Split. Dort wird jeweils nach der kleins- 
ten Summe der quadratischen Abweichungen für alle Npo = N, Prädiktoren 
oder eine Auswahl von diesen gesucht (s. Kapitel 3.4.3). Die geringste Ab- 
weichung für den i-ten Prädiktor am s-ten Split für den Variablentrennwert ts 


ist wegen Gleichung (3.57) durch 


N . 2 
& (4) = L DEE )| geed 
j=l 
d (i,2) (i,2) 
+ L b — ys” HI eg (rtl (3.58) 
j=l 


gegeben, da bei jedem Split aus einem Unterraum A exakt zwei Unterräu- 
me REY und A) entstehen, die über 


RE) = {x | x Sts AXE am , (3.59) 


Ri) = Sr | pinea] (3.60) 


definiert sind. Darin steht x, für jeden möglichen Zustand, während x; einen 
im Datensatz tatsächlich angenommenen Zustand bezeichnet. Durch das 


Austesten endlich vieler Werte x für den Variablentrennwert ts wird für 
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alle ausgewählten Prädiktoren der geringste Wert von el (ts) bestimmt. 
Dafür sind maximal so viele Werte für 7, zu testen wie Datenpunkte im 
aufzuteilenden Unterraum RO vorhanden sind. Anschließend erfolgt 
ein Vergleich der Werte der so verbleibenden (maximal N,) Summen der 
Abweichungen und schlieBlich die Auswahl derjenigen Variablen mit 
dem entsprechenden optimalen Variablentrennwert, die fiir diesen Split 
die geringste Summe der Abweichungen aufweist. Damit sind die oben 


erwähnten Freiheitsgrade (i) und (ii) festgelegt. 


Die Topologie des Baums (iii) ergibt sich durch die Forderung einer minima- 
len Anzahl von Datenpunkten innerhalb eines jeden Orthotops. Sind in einem 
Unterraum nach einer bestimmten Anzahl von Splits weniger als Nun Daten- 
punkte vorzufinden, so wird dieser nicht mehr weiter gesplittet. Dieses Ortho- 
top bezeichnet man auch als ein Blatt des Entscheidungsbaums. Darüber hin- 
aus ist es möglich einen Entscheidungsbaum zu stutzen, d.h. die Anzahl von 
Splitebenen a posteriori zu verringern, da es bei kleinen Werten für N in ZU 
einer Überanpassung (Overfitting) kommen kann. Beim sogenannten Kosten- 
Komplexität-Kriterium wird die Summe der quadratischen Abweichungen in 
den Blättern der Anzahl von Blättern eines gestutzten Baums Na (bzw. DN 
mit ß > 0 als Tuningparameter) gegenübergestellt, sodass die Abweichungen 
sowie die Anzahl von Blättern möglichst gering sind. Durch den Vergleich 
verschiedener Bäume, die unterschiedlich gestutzt werden, findet man da- 
mit adaptiv einen optimal gestutzten Entscheidungsbaum, der weniger über- 
angepasst ist als der vollständig ausgewachsene Baum. Details hierzu fin- 
den sich beispielsweise in Breiman et al. (1984) oder Hastie et al. (2009). Für 
Nmin K N kommt es hingegen in der Regel zu einer Unteranpassung des klein 
gewachsenen Entscheidungsbaums, da relevante Strukturen verborgen blei- 


ben. 
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3.4.2 Klassifikationsbaume 


Klassifikationsbäume entsprechen konzeptionell den Regressionsbäumen, 
unterscheiden sich jedoch in der Formulierung der Kriterien für das Split- 
ting und das Stutzen der Bäume. Wie in Kapitel 3.3.2 erläutert, ist die Me- 
thode der kleinsten Quadrate für binäre Klassifikationsprobleme (und ebenso 
für multikategorische Probleme mit Nx Klassen der abhängigen Variablen) 
nicht geeignet, sodass auch Gleichung (3.58) für das Splitting in Klassifika- 
no nicht angewendet wird. Mit m = {1,2} nimmt in den Unterräu- 


(i,m) 


im) der Prädiktand genau n,” mal den Wert der k-ten Klasse v, an, 


men el 
d.h. deren Anteil beläuft sich auf 


link = pr (y = Vk) = (3.61) 
mit der Gesamtanzahl von Datenpunkten in eee Unterraum Nim). Als 
Schätzwert des Prädiktanden $(x) mit x € RN 


i DO H D . 
in beiden Unterräumen wird 


der jeweils am häufigsten auftretende Wert 
oh? = [dx | k= kh? = argmax ( po") } (3.62) 


verwendet. Zur Beschreibung der Abweichungen in den Unterräumen ha- 
ben sich drei verschiedene Kenngrößen etabliert: der Missklassifikationsfeh- 
ler (MF), der Gini Index (GT) und die Kreuz-Entropie (KE), welche häufig 


auch als Devianz bezeichnet wird. Sie berechnen sich in jedem Unterraum 


gemäß 
i S (i,m) 
MF) = 1 — FM Kmar ) A (3.63) 
Nk 
(i,m) =r (i,k) (1- i, zeg (3.64) 
Nk 
(i,m) =r (i,m, Di wl i,m, e N (3.65) 
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Hastie et al. (2009) empfehlen die Verwendung des G/ oder der KE, da diese 
sensitiver in Bezug auf die Klassenanteile in der Unterräumen reagieren als 
der MF. Das Minimierungsproblem aus Gleichung (3.58) wird daher bei 
Klassifikationsbäumen beispielsweise durch die Minimierung der Summe der 


Gini Indizes in den beiden Unterräumen des Splits ersetzt: 


; N ; S 
GIDI? (x,t) + A7 GIL (xj,ts) 
j=l 


Q 
i 
mz 


<. 
Il 
H 


Nam Gi) . (3.66) 


Í 
Me 


3 
ll 
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Analog wird im Kosten-Komplexität-Kriterium zur Bestimmung der optima- 
len Topologie des Entscheidungsbaums eines der drei gelisteten Maße be- 


nutzt. 


3.4.3 Der Random Forest als Kombination von 
Entscheidungsbäumen 


Random Forests stellen eine Menge aus dekorrelierten Entscheidungsbäumen 
dar (Breiman, 2001). Die Vorhersagen von Random Forests ergeben sich 
mittels der Methode des sogenannten Bootstrap Aggregatings (kurz: 
Baggings, Breiman, 1996). Beim Bagging im Random Forest wird der 
vorliegende Datensatz durch Ziehen mit Zurücklegen von Npag Datenpunkten 
in Ngaum Datensätze aufgeteilt. Aus jedem dieser Datensätze wird ein 
eigenständiger Entscheidungsbaum gebildet. Am Ende des Verfahrens 


erfolgt eine Kombination der resultierenden Schätzwerte (s. u.). 


Das Bagging eignet sich allgemein besonders für Methoden mit hoher Varianz 
und niedrigem Bias (Hastie et al., 2009). Ungestutzte Entscheidungsbäume, 
welche per Konstruktion komplexe Strukturen in den Daten erfassen können, 
weisen bei niedrigem Nmin aufgrund der Überanpassung an den verwendeten 


Datensatz einen sehr niedrigen Bias auf. Andererseits ist eine hohe Varianz 
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aufgrund der Uberanpassung vorbestimmt. Darüber hinaus führen kleine Mo- 
difikationen im Datensatz zu anderen Entscheidungen für das Splitting über 
Gleichung (3.58) bzw. (3.66), was in sehr unterschiedlichen Bäumen resultie- 
ren kann. Solche Modelle bezeichnen viele Autoren auch als schwache Ler- 
ner. Durch das Bagging wird die Stabilität und Genauigkeit solcher schwa- 
chen Lerner verbessert sowie die Varianz und die Überanpassung reduziert. 
Die Varianz des kompletten Random Forests hängt dabei multiplikativ von 
der Varianz der einzelnen Entscheidungsbäume sowie deren paarweisen Kor- 
relationen ab, sofern der Random Forest hinreichend groß ist. Details dazu 
finden sich in Hastie et al. (2009). Ziel des Baggings ist es daher, die Bäume 
zu dekorrelieren und gleichzeitig die Varianz der Bäume dadurch nicht zu 
stark zu erhöhen. 

Die Dekorrelation der Entscheidungsbäume wird dadurch erreicht, dass bei 
jedem Split in den Bäumen lediglich eine bestimmte Anzahl Nun < Npo 
von Prädiktoren betrachtet wird. Diese ergibt sich durch zufälliges Ziehen 
aus allen Prädiktoren ohne Zurücklegen. Die bestmögliche Wahl für den Pa- 
rameter Nj ist in der Regel von der Gesamtzahl der Prädiktoren, deren 
Korrelation, der Problemstellung sowie den zugrundeliegenden Daten abhän- 
gig (z.B. Hastie et al., 2009; Bernard et al., 2009). Die typischen Standard- 
werte sind Nun = |Npo/3] für Regressions- sowie Nun = | /Npo] für Klas- 
sifikationsprobleme. Dabei steht die Klammer (| |) für die Gaußklammer, die 
eine Abrundung auf die nächstkleinere ganze Zahl kennzeichnet. Bei sehr 
kleinen Werten für Npo muss Nspiit in der Regel größere Werte als die je- 
weiligen Standardwerte annehmen, um die bestmögliche Vorhersagegüte zu 
erreichen. Auch wenn nicht garantiert ist, dass diese Wahl für Nun in jedem 
Fall die bestmögliche ist, so stellt sie zumindest einen guten Richtwert dar. 
Als Maß für die Abweichungen beim Splitting wird für Regressionsbäume 
der MSE wie in Gleichung (3.58), für Klassifikationsbäume meist der Gini- 
Index G/ wie in Gleichung (3.66) verwendet. Letzterer spart gegenüber der 


Kreuz-Entropie KE etwas an Rechenzeit. 
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Dariiber hinaus wird bei der Verwendung des Random Forests fiir Re- 
gressionsprobleme fiir jeden Entscheidungsbaum die Abbruchbedingung 
Nmin = 5 und für Klassifikationsprobleme Nyin = 1 als Standardwert 
empfohlen. Auch wenn Segal (2004) zeigte, dass durch die Beschränkung 
der Anzahl von Splitebenen kleine Verbesserungen bezüglich der Rechenzeit 
bei der Erstellung eines Random Forests auftreten können, konstatieren 
Hastie et al. (2009), dass die Generierung eines vollständig ausgewachsenen 
Baums mit den genannten Abbruchbedingungen meist eines nur wenig 
höheren Rechenaufwands bedarf. Gleichzeitig eliminiert man damit einen 


Tuning-Parameter. 


Die resultierenden Schätzwerte aus den einzelnen Ngaum Entscheidungsbäu- 
men (2) (x) kombiniert ergeben einen gemeinsamen Schätzwert des Random 
Forests. Für Regressionsbäume bestimmt das arithmetische Mittel den kom- 


binierten Schätzwert: 


1 NBaum (3 53) 1 NBaum Nina) 


dg D(x.) MZ (m4) 70.9) (x; 
I(x) = IM (Kj) = Bree) 
N Baum q=1 NBaum D L 1 
(m.q) 
(3.57) 1 NBaum N Ber Sa 
= E EO (3.67) 


N; Baum q=1 m=1 


Für Klassifikationsbäume betrachtet man das sogenannte Cutoff -Verhältnis 
d (1.9) 
c® (x;) = pi 2 pray (ma) ( nl 


oe 1 E 
co E ee 9) (x;) 


m=1 


(3.68) 
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Darin steht DU"! für den Schätzwert des Prädiktanden im m-ten Blatt des 


q-ten Entscheidungsbaums. Der Operator 7P zählt, wie häufig bal = 


D7) dem Wert der k-ten Klasse von den Ngaum einzelnen Schätzwerten 


der Entscheidungsbäume entspricht und teilt diese Zahl durch Ngaum. Er gibt 
demnach die relative Häufigkeit der Vorhersagen der Werte der k-ten Klasse 
F)(x;) im Random Forest an. C ist der der k-ten Klasse zugeordnete, a 


priori festgelegte Cutoff-Wert, und es muss gelten: 
).c9=1, (3.69) 


Der kombinierte Schätzwert bestimmt sich schließlich über 


EE for | k = argmax Le? (x;)) } e (3.70) 
Er entspricht demzufolge dem Wert der Klasse, die ie (xj) maximiert. Wählt 
man beispielsweise C W=N k l Y k, so entspricht der kombinierte Schätzwert 
dem Wert derjenigen Klasse, die am häufigsten von den einzelnen Entschei- 
dungsbäumen vorhergesagt wird. Im Fall Ng = 2 entspricht dies der (einfa- 
chen) Mehrheitsentscheidung. Wählt man hingegen für N, = 2 beispielsweise 
C = (0,7; 0,3), so müssen 70 % der Entscheidungsbäume im Random Forest 
für die erste Klasse stimmen, damit die Vorhersage des Random Forests eben- 
falls Klasse Eins lautet. Die Klasse Zwei wird hingegen schon vorhergesagt, 
wenn nur 30 % der Bäume diese Vorhersage stützen. Für binäre Prädiktan- 
den mit v € {0; 1} ist die Bestimmung von ¥(x;) über das Cutoff-Verhältnis 
gemäß Gleichung (3.70) mit derjenigen, die in Gleichung (3.36) für die logis- 
tische Regression verwendet wurde, unter Verwendung folgender Äquivalen- 


zen identisch: 


pec’, (3.71) 
pj = Ply =1|x=x;) =F (x;). (3.72) 
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Ein Random Forest kann nicht zwischen dem marginalen Effekt und der 
Wichtigkeit der Prädiktoren unterscheiden, da das Splitting der Entschei- 
dungsbäume skaleninvariant unter monotonen Transformationen ist. Es exis- 
tieren mehrere Maße, welche die relative Wichtigkeit der Prädiktoren quan- 
tifizieren. Das einfachste Maß zählt, wie häufig ein Prädiktor für einen Split 
ausgewählt wurde. Dieser wurde dort gerade deswegen ausgewählt, weil er 
die Abweichungen bei einem Split in Gleichung (3.58) bzw. (3.66) minimiert 
und damit potentiell ein hohes Unterscheidungsvermögen in Bezug auf den 
Prädiktanden besitzt (Hatz, 2018). 

Gebräuchlicher ist es, die Verbesserungen des Splitkriteriums ausgedrückt 
durch den MF, den GI oder die KE durch einen Prädiktor für alle Splits in den 
Entscheidungsbäumen zu bestimmen (Breiman et al., 1984; Breiman, 2001). 
Genauer formuliert: Für jeden Split wird beispielsweise der GJ aus dem Un- 
terraum Ro mit der mit NEUN! bzw, NÜDNO-1 gewichteten Sum- 
me der beiden G/ aus den Unterräumen RN und Ri) verglichen und 
die Differenz als G/-Verringerung bezeichnet. Je höher das Mittel über al- 
le Bäume der Ngaum Summen der mit dem jeweiligen N (0) gewichteten 
GI-Verringerungen aller Entscheidungsbäume ist, desto höher ist die Wich- 
tigkeit des Prädiktors (Gini-Wichtigkeit). 

Eine dritte Möglichkeit zur Bestimmung der Wichtigkeit eines Prädiktors 
ist, dessen Werte in den jeweiligen Datensätzen der Entscheidungsbäume 
zufällig zu permutieren, d.h. jedem Datenpunkt wird zufällig der Wert des 
Prädiktors eines anderen Datenpunkts zugeordnet, während die Werte der 
übrigen Prädiktoren und die des Prädiktanden des Datenpunkts konstant blei- 
ben (Breiman, 2000). Damit wird ein zweiter Random Forest generiert, bei 
dem (wie für den ursprünglichen Random Forest) für jeden einzelnen Baum 
ein bestimmtes Fehlermaß, der sogenannte OOB-Fehler (s.u.), bestimmt 
wird. Im Anschluss bestimmt man die Differenz der Ngaun OOB-Fehler und 


mittelt diese anschließend. Je höher die mittlere Differenz, desto höher die 
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Wichtigkeit des Prädiktors (Strobl et al., 2007; Hastie et al., 2009). Dieses 


Maß wird auch als Permutations-Wichtigkeit bezeichnet. 


Durch das Bagging, bei dem eine zufällige Ziehung von Npag Datenpunk- 
ten aus dem kompletten Datensatz mit Zurücklegen erfolgt, gehen nicht alle 
Datenpunkte in die Bildung des g-ten Entscheidungsbaums ein. Diese sind 
— wörtlich übersetzt — außerhalb des Sacks (Out of Bag; OOB) für die- 
sen Baum. Daher ist für diese Datenpunkte direkt bei der Modellbildung 
eine Abschätzung der Residuen er = y; — $(x;) und weiterer Fehlermaße 
in jedem Baum möglich (z.B. Hastie et al., 2009). Stabilisieren sich diese, 
so ist eine Erweiterung des Random Forests um weitere Bäume nicht not- 
wendig. Tatsächlich geht der OOB-Fehler, den verschiedene Fehlermaße be- 
schreiben und quantifizieren können, für eine genügend große Anzahl von 
Bäumen in den Fehler über, den man durch einen zweiten, ähnlich großen 
unabhängigen Datensatz erhalten würde. Prinzipiell ist somit keine Unter- 
scheidung in Trainings- und Testdatensatz und auch keine Kreuzvalidierung 
nötig (Breiman, 2001; James et al., 2013). Zum Vergleich mit einer anderen 
Vorhersagemethode wie z.B. der logistischen oder (nicht-)linearen Regres- 
sion ist es allerdings empfehlenswert, wie bei der anderen Methode eine 
Untersuchung mit mehreren Random Forest-Modellen mit jeweils denselben 
Trainings- und Testdatensätzen durchzuführen, da diese dort zur unabhängi- 


gen Quantifizierung der Vorhersagegüte notwendig ist (vgl. Kapitel 3.3). 


3.5 Methoden zur Aufbereitung der Datensätze 


Bevor ein Datensatz zur Modellbildung eines statistischen Vorhersageverfah- 
rens verwendet werden kann, sind häufig einige vorbereitende Bearbeitungs- 


schritte notwendig (Preprocessing; s. Kapitel 6.1.1). Die folgenden Kapitel 
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stellen dazu einige Grundlagen für bestimmte mathematische Transformatio- 
nen der Daten (Kapitel 3.5.1) sowie Methoden des sogenannten Resamplings 
vor (Kapitel 3.5.2), die in der Datenvorbehandlung für die Modellstudien in 
Kapitel 6 Verwendung finden. 


3.5.1 Mathematische Transformationen 


Wilks (2006) führt an, dass wichtige Merkmale einer Variablen im ursprüng- 
lichen Variationsbereich verborgen bleiben können. Eine mathematische 
Transformation der Variablenwerte eines Datensatzes vor der Anwendung ei- 
nes statistischen Verfahrens kann nützlich sein, um dessen Aussagekraft zu 
steigern. 

Eine monotone Transformation, welche eine Variable x entdimensiona- 
lisiert, zentriert und auf einen Variationsbereich mit der Standardabwei- 
chung Gun = 1 normiert, ist die in Gleichung (3.15) bereits beschriebe- 
ne z-Transformation. Diese erhält unter anderem die Schiefe der Vertei- 
lung (vgl. Kapitel 3.1.2). Werden die Werte der Prädiktoren für statistische 
Verfahren im Vorfeld z-transformiert, vereinfacht dies die Quantifizierung der 
Wichtigkeit der Prädiktoren in vielen Verfahren wie beispielsweise über die 
Modellparameter b bei der linearen Regression (vgl. Kapitel 3.3.1) oder den 
Effekt-Koeffizienten Ex bei der logistischen Regression (vgl. Kapitel 3.3.2). 
Bis auf die Tatsache, dass die Werte der Prädiktoren nach der Transformation 
physikalisch schwieriger zu interpretieren sind, hat eine solche Transformati- 
on keine Nachteile und keinen Effekt auf die Vorhersagen eines statistischen 
Vorhersageverfahrens und deren Güte sowie auf die Wichtigkeit der Prädik- 
toren (z. B. Kuhn und Johnson, 2013). 

Eine für unimodale Verteilungen nützliche monotone Transformation aus 
der Familie der sogenannten Power-Transformationen ist die parametrische 
Box-Cox-Transformation, welche im Gegensatz zur z-Transformation eine 
Reduzierung der Schiefe der Verteilung zum Ziel hat (Box und Cox, 1964). 


Die Verteilung der Werte einer Variablen wird demzufolge durch diese 
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Transformation symmetrischer und einer Normalverteilung ähnlicher, indem 
die Transformation Bereiche der Verteilungsfunktion mit niedriger Varianz 
streckt und solche mit hoher Varianz staucht. Die Transformationsvorschrift 


fiir den j-ten Wert der Variablen x lautet 


Oy 
(Ù eja falls A 40 


I S= a (3.73) 
In(x) falls A =0 

Eine geeignete Wahl fiir den Transformationsparameter A ergibt sich über 
die Maximum-Likelihood-Methode (vgl. Kapitel 3.3.2) oder empirisch durch 
simples Austesten verschiedener Werte. In der Praxis übernehmen geeignete 
Softwarepakete die Bestimmung von A. 

Allerdings ist die Box-Cox-Transformation nur für positive Werte von ai 
definiert. Eine Verallgemeinerung fiir reellwertige Variablen stellt die Yeo- 
Johnson-Transformation dar (Yeo und Johnson, 2000). Die Transformations- 


vorschrift dafiir lautet: 


ü 
x;’+1) —1 S 
E falls A #0 A x >0 
wo (nl) ` fallsa=0 rx) >0 
x) = ae .  G.74) 
=x rab. = B 
FI falls A 42 0 x <0 


J 
—In (-x? 4 1) falls A=2 A x) <0 


Eine Kombination von z- und Box-Cox- bzw. Yeo-Johnson-Transformation 
ist ebenfalls möglich, sodass zentrierte, skalierte und zugleich 


schiefe-reduzierte Variablenwerte erzeugt werden können. 
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3.5.2 Resampling zur Balancierung von Datensätzen 


Sind die Werte der abhängigen Variablen y in einem Datensatz sehr ungleich 
verteilt, wirkt sich dies bei der Modellbildung von statistischen Vorhersage- 
verfahren aus. Viele Optimierungsverfahren der Modellbildung schneiden die 
Modellparameter auf stark vertretene Klasse(n) bzw. Wertebereiche des Prä- 
diktanden zu, während die übrigen kaum Einfluss auf die Schätzung der Mo- 
dellparameter haben. Ein Beispiel hierfür ist die globale Minimierung einer 
Kostenfunktion in vielen statistischen Verfahren, welche dann größtenteils die 
Kosten der überrepräsentierten Klasse(n)/Wertebereiche darstellt (z. B. Glei- 
chungen (3.20) und (3.44)). Vorhersagen von Regressionsverfahren können 
dadurch lediglich eine geringe Schärfe der Schätzwerte des Prädiktanden auf- 
weisen, d.h. die Vorhersagen variieren nur in einem kleinen Wertebereich 
und können die Variabilität der beobachteten Werte nicht vollständig abbil- 
den. Studien von Weiss und Provost (2001), Batista et al. (2004) und weite- 
ren legen nahe, dass bestimmte, sogenannte Resampling-Methoden (in die- 
sem Abschnitt: RSP-Methoden) die Probleme verringern können, die ein 
solcher schiefer (unbalancierter) Datensatz mit sich bringt. Jedoch verhal- 
ten sich statistische Vorhersageverfahren sehr unterschiedlich nach der An- 
wendung verschiedener RSP-Methoden auf einen Trainingsdatensatz, so- 
dass Kuhn und Johnson (2013) konstatieren, dass sich keine allgemeingültige 
Aussage über den Nutzen von solchen Methoden treffen lässt. 

Die in der vorliegenden Arbeit betrachteten abhängigen Variablen sind in der 
verfügbaren Stichprobe sehr ungleich verteilt, wie die Analysen in Kapitel 5 
zeigen werden. Zudem deuten die dortigen Untersuchungen darauf hin, dass 
ein RSP für die Modellstudien in Kapitel 6 vorteilhaft sein könnte. Letztlich 
ist eine optimale Wahl für eine RSP-Methode zur Balancierung der Klassen 
bzw. des Wertebereichs des Prädiktanden im Trainingsdatensatz bei der Bil- 
dung eines finalen, optimal angepassten Modells zu treffen. Eine Vorstellung 


verschiedener RSP-Methoden, die getestet wurden, folgt unten. 
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Für binäre Klassifikationsverfahren sei zuvor das Klassenverhältnis 


Ps N Ken 


(3.75) 
ne 


PK 
eingeführt, welches das Verhältnis der Anzahl von Ereignissen, welche die 
unterrepräsentierte Klasse X%1ein darstellen, zu den Nicht-Ereignissen in der 
überrepräsentierten Klasse %zross angibt. Der Trennwert der abhängigen Va- 
riablen y, der beide Klassen separiert, wird fortan als Klassentrennwert be- 
zeichnet. Eine RSP-Methode kann im Fall von ursprünglich sehr kleinen Wer- 
ten von px eine Vergrößerung des Klassenverhältnisses im Vergleich zum 
originalen Trainingsdatensatz bewirken. Dies bietet speziell für den Random 
Forest die Möglichkeit einer Reduzierung der Anzahl von Entscheidungsbäu- 
men Npaum und somit des Rechenaufwands, da der Entscheidungstrennwert u 
aus Gleichung (3.71) deutlich größere Werte annehmen kann. 

Um den Wertebereich des Prädiktanden ausgeglichener zu repräsentieren, 
existieren zwei verschiedene RSP-Methoden, welche beide in den Modell- 
studien in Kapitel 6 und Anhang B Anwendung finden: das Undersampling 
und das Oversampling, welche in diesem Kapitel aufgrund der häufigen Ver- 
wendung mit USP und OSP abgekürzt werden. Die prinzipielle Idee hinter 
dem USP ist eine maßgebliche Reduktion des Anteils der überrepräsentier- 
ten Klasse(n)/Werte, während das OSP aus den Datenpunkten der unterreprä- 
sentierten Klasse(n)/Werte zusätzliche fiktive Datenpunkte geschickt gene- 
riert (s. u.). Beim USP erfolgt also eine Verkleinerung des Trainingsdatensat- 
zes, während das OSP diesen vergrößert. Darüber hinaus ist es auch möglich, 
zunächst ein USP und direkt im Anschluss ein OSP durchzuführen. 

Die im Folgenden beschriebenen Techniken, die jeweils eine Variante des 
USP und des OSP darstellen, sind generell auf jede beliebige Variable im 
Datensatz anwendbar, d.h. ein RSP muss nicht zwangsweise bezüglich der 
abhängigen Variablen y erfolgen. Die späteren Untersuchungen wenden das 
RSP jedoch ausschließlich bezüglich y an. Alle RSP-Methoden wirken sich 
durch die Modifikation des Trainingsdatensatzes offensichtlich auch auf die 
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Bestimmung der Wichtigkeit der Prädiktoren aus. Abbildung 3.3 ergänzt 
zur Veranschaulichung die nachfolgende Beschreibung von USP und OSP 


bzw. deren Kombination. 


Undersampling 

Der Wertebereich der abhängigen Variablen im Trainingsdatensatz wird in 
Nusp Nr, Intervalle J; aufgeteilt, z.B. Nysp = 20 (Abbildung 3.3a). Dar- 
in steht Nr, führt die Anzahl von Datenpunkten im Trainingsdatensatz. Es 
folgt die Bestimmung der Anzahl von Datenpunkten in jedem Intervall (N/,). 
Anschließend entfernt der Algorithmus aus allen Intervallen, in denen sich 
mehr Datenpunkte finden als durch ein bestimmtes Perzentil dr:ep vor- 
gegeben (Nop, gerundet), so viele Datenpunkte, dass in jedem Intervall 
Ni, < Noysp gilt. @vsp wird im Folgenden auch Balanceparameter genannt. 
Anschaulich gesprochen schneidet das USP einfach den Hügel der Vertei- 
lungsfunktion auf ein bestimmtes Niveau ab, das durch dr: ep kontrolliert wird. 
Der Balanceparameter @ysp fällt in der Regel nicht mit dem Klassentrennwert 
zusammen. Es ist demnach ebenfalls möglich, dass der Algorithmus bei Klas- 
sifikationsverfahren neben Datenpunkten aus Rus auch solche aus Kein 
entfernt. 

Durch das USP wächst das Klassenverhältnis px bei Klassifikationsverfahren 
an. Je kleiner @ysp ist, desto größer ist die Reduzierung der Anzahl von 
Datenpunkten im Trainingsdatensatz. Bei sehr ungleicher Verteilung sind 
auch für recht hohe Werte von gysp starke Reduzierungen der Größe 
des Trainingsdatensatzes möglich. Das USP bewirkt darüber hinaus eine 
Modifikation der Verteilungsfunktion der den Datenpunkten zugeordneten 
unabhängigen Variablen im Trainingsdatensatz, welche weiterhin einen 
großen Wertebereich abdeckt (blaue und schwarze Kreise in den Abbil- 
dungen 3.3b—d). Die Verkleinerung des Trainingsdatensatzes hat nicht 


zwangsläufig eine Verkleinerung der Varianz der Werte der unabhängigen 
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10000 - —_Trainingsdatensatz 
— Nach Under+Oversampling 
mit usp = 0.7, dosp = 1.0 154 


und min(Nj) = 15 
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(c) USP + OSP-Methode SMOTE (d) USP + OSP-Methode 
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Abbildung 3.3: (a) Häufigkeitsverteilung einer abhängigen Variablen im originalen Trainings- 
datensatz einer exemplarischen Modellstudie (Nr, = 25 000; schwarze Punkte und Linie) sowie 
im modifizierten Trainingsdatensatz nach der kombinierten Anwendung eines USP (Nysp = 20, 
gusp = 0,7) und eines anschließenden OSP (osp = 1,0, Ni min = 15), welches auf Noen = 117 
führt (violette Linie). Das USP sortiert dabei Datenpunkte aus den Intervallen D bis Je aus, wäh- 
rend das OSP für die Intervalle /7 bis J41 fiktive Datenpunkte generiert. Die Reduzierung der Grö- 
Be des Trainingsdatensatzes liegt bei rund 94,7 %. (b)—(d) Darstellung des RSP im Raum der Prä- 
diktoren. Die Linien kennzeichnen die Häufigkeitsverteilung im originalen Trainingsdatensatz, 
abgeleitet aus einer 2D-Kerndichteschätzung mit Gaußkern und 30 x 30 Boxen im Wertebereich 
der Prädiktoren (grau: 100 ppm; magenta: 1 %o; orange: 1 %; z. B. Venables und Ripley, 2013). 
Blaue und schwarze Kreise kennzeichnen Datenpunkte, die nach dem USP übrig bleiben, wo- 
bei die schwarzen solche markieren, die in den für das OSP relevanten Intervallen liegen. Rote 
Punkte sind fiktive Datenpunkte, die die jeweilige OSP-Methode generiert. Die Abbildungen 
entstammen einer exemplarischen Untersuchung mit der abhängigen Variablen Lebensdauer von 
konvektiven Zellen und den Prädiktoren DLS (Prädiktor 1; ms~!) und LI (Prädiktor 2; K) im 
Rahmen der Modellstudien, die in Kapitel 6 vorgestellt werden. 
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Variablen zur Folge. Insgesamt geht jedoch durch das USP im Vergleich zum 


originalen Trainingsdatensatz Information verloren. 


Oversampling 

Das OSP verfolgt den umgekehrten Ansatz zum USP und seine numerische 
Umsetzung erfolgt auf sehr ähnliche Weise. Anschaulich gesprochen hebt das 
OSP einen Teil des Schwanzes der Verteilungsfunktion auf ein bestimmtes 
Niveau an, das durch einen Balanceparameter dosp kontrolliert wird. Die In- 
tervalle, in die weniger als Nr min = min(N7,) fallen (z.B. 15 Datenpunkte), 
bleiben jedoch unberührt (Abbildung 3.3a). Die Einführung von Nr min ist dar- 
in begründet, dass zu wenige Datenpunkte in einem Intervall die Variabilität 
der unabhängigen Variablen nicht hinreichend gut repräsentieren. Extrem sel- 
ten beobachtete Wertebereiche des Prädiktanden erhalten dadurch allerdings 
noch weniger Gewicht. Die Generierung fiktiver Datenpunkte kann mit un- 
terschiedlichen Methoden erfolgen, von denen drei ausgewählt und getestet 
werden (s. Anhang B). Allen Methoden gemein ist eine Generierung fiktiver 
Datenpunkte (rote Punkte) auf der Basis der in den jeweiligen Intervallen 
vorhandenen Datenpunkte (schwarze Kreise in den Abbildungen 3.3b—d). 
Dies bedeutet, dass die fiktiven Datenpunkte im statistischen Sinne nicht un- 
abhängig von den vorhandenen sind. Solange die Evaluation der Vorhersa- 
geverfahren jedoch mit einem Testdatensatz erfolgt, der keinem RSP unter- 
zogen wurde und die ursprüngliche Verteilung der Werte der Prädiktanden 
näherungsweise widerspiegelt, ist diese Modifikation der Trainingsdaten eine 
valide Methode zur Balancierung (Kuhn und Johnson, 2013). 

Die erste OSP-Methode vervielfacht Datenpunkte in den betroffenen In- 
tervallen durch zufälliges Ziehen mit Zurücklegen, ähnlich zu einer von 
Ling und Li (1998) untersuchten Methode (Abbildung 3.3b). Die zweite 
OSP-Methode basiert auf der von Chawla et al. (2002) eingeführten Metho- 
de SMOTE (Synthetic Minority Oversampling Technique), welche neue Da- 
tenpunkte für jedes betroffene Intervall separat generiert, und zwar auf zu- 


fälligen Positionen entlang von Liniensegmenten im Raum der Prädiktoren 
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zwischen ausgewählten benachbarten Datenpunkten (Abbildung 3.3c). Die 
dritte OSP-Methode basiert auf der von Lee (1999) vorgestellten Methode 
und generiert in den betroffenen Intervallen fiktive Datenpunkte im Raum 
der Prädiktoren zufällig innerhalb eines vorgegebenen Radius um vorhande- 
ne Datenpunkte, der auf einem vorgegebenen Anteil (häufig 10%) an der 
Standardabweichung der Prädiktoren beruht (Abbildung 3.3d). 

Durch das OSP wächst das Klassenverhältnis px bei Klassifikationsverfahren 
ebenfalls an. Eine zu große Anzahl von fiktiven Datenpunkten kann 
allerdings dazu führen, dass häufig redundante Informationen aus denselben 
vorhandenen Datenpunkten verwendet werden, welche die Modellbildung 
anschließend zu stark beeinflussen. Ling und Li (1998) merken an, dass 
OSP-Methoden die Vorhersagen von Verfahren, die auf einer globalen 
Optimierung beruhen, kaum signifikant verbessern, wie beispielsweise die 
Methode der kleinsten Quadrate zur Minimierung einer globalen Kosten- 
funktion GG o: vgl. Kapitel 3.3). Verfahren wie z.B. Entscheidungsbäume 
und somit auch Random Forests können von einem OSP profitieren, weil 
sie den Zustandsraum der Prädiktoren in feinere Unterräume unterteilen 
können (vgl. Kapitel 3.4; Lee, 1999). 


Kombination von Undersampling und Oversampling 

Den drei vorgestellten OSP-Methoden kann auch die Anwendung eines USP 
vorausgehen (Abbildung 3.3). Dies geschieht in der vorliegenden Arbeit der- 
gestalt, dass nach dem USP ein OSP bezogen auf Ng,,sp; d.h. mit dosp = 1,0 
nachfolgt. Wie oben beschrieben, stehen hierfür drei verschiedene Methoden 
zur Verfügung. Die kombinierte Methode schneidet den Hügel der Vertei- 
lungsfunktion folglich wie beim reinen USP auf ein bestimmtes Niveau ab 
und hebt einen Teil des Schwanzes auf dieses Niveau an. Extrem selten beob- 
achtete Wertebereiche des Prädiktanden erhalten wegen der Wahl Nr min = 15 
dadurch wie beim reinen OSP noch weniger Gewicht. Chawla et al. (2002) 
zeigten beispielsweise für ein auf einem Entscheidungsbaum basierendes 
Klassifikationsverfahren, dass eine Kombination von USP und SMOTE die 
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Vorhersagegiite im Vergleich zur Verwendung des originalen Trainingsdaten- 
satzes oder zu einem reinen USP verbessern kann. Für ġysp > 0 (duysp > 1) 
geht die hier beschriebene Kombination von USP und OSP in ein reines, ex- 
tremes USP (OSP) über. 


3.6 Gütemaße für die Evaluation 


Zur Evaluierung von Vorhersagen existiert eine Vielzahl von unterschiedli- 
chen Gütemaßen, welche verschiedene Eigenschaften des Datensatzes und 
Aspekte der Vorhersagegüte beleuchten können. Oft ist es zudem zur dif- 
ferenzierten Evaluation hilfreich oder gar erforderlich, die Vorhersagen gra- 
fisch mit den entsprechenden Beobachtungen zu vergleichen. In der vorlie- 
genden Arbeit sollen sowohl Grafiken als auch bestimmte Maßzahlen einen 
übersichtlichen Blick auf die Vorhersagegüte ermöglichen (vgl. Kapitel 6.2 
bis 6.4). Die Vorhersageverfahren aus den Kapiteln 3.3 und 3.4 untersuchen 
für konvektive Zellen die Prädiktanden Lebensdauer und maximale Zellflä- 
che anhand von sogenannten Zellobjekten, die auf der Basis von Radarda- 
ten bestimmt werden (s. Kapitel 4.1). Dabei produzieren die Verfahren für 
die Prädiktanden diskrete oder kontinuierliche Vorhersagewerte aus den je- 
weiligen Testdatensätzen, welche den entsprechenden Beobachtungswerten 
gegenübergestellt werden. Da die Beobachtungswerte nur ein möglichst rea- 
litätsnahes Abbild der tatsächlich aufgetretenen Zellattribute sind, wird im 
Folgenden weiterhin von der Evaluation und nicht von der Verifikation der 
Vorhersagen gesprochen. 

Die Einführung von Gütemaßen geschieht mit Hilfe von Beispielen der ab- 
hängigen Variablen Lebensdauer, ist jedoch gleichermaßen auf die Zellfläche 
anwendbar. Für die Lebensdauer existieren zwar nur diskrete Werte im Ab- 


stand von 5 min, welcher der zeitlichen Auflösung der Informationen aus den 
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Radarmessungen entspricht. Dennoch kann sie als quasi-kontinuierlich an- 
gesehen und bei Regressionsverfahren wie eine kontinuierliche Variable be- 
handelt werden. Für spezielle Aspekte zur Durchführung der Evaluation der 
in den Kapiteln 6.2 bis 6.4 diskutierten Modellstudien sei auf Kapitel 6.1.2 


verwiesen. 


3.6.1 Kategorische Evaluation 


Die kategorische Evaluation dient dazu, Vorhersagen von Klassifikationsver- 
fahren auszuwerten (Wilks, 2006). Um überhaupt eine Klassifikation vorneh- 
men zu können, muss eine Einteilung kontinuierlicher abhängiger Variablen 
in verschiedene Kategorien (Klassen) stattfinden. Die i-te Klasse wird im Fol- 
genden mit .% bezeichnet. Der einfachste binäre Fall, den eine logistische 
Regression und ein Random Forest modellieren können, ist demnach eine 
Aufteilung in zwei Klassen wie beispielsweise Zellobjekte mit kurzer und 
langer Lebensdauer. Wie in Kapitel 3.4.2 dargestellt, kann der Random Forest 
auch multikategorische Vorhersagen treffen. 

Bei der Konstruktion der zwei Klassen stellt sich nicht nur die Frage nach 
einem geeigneten Klassentrennwert zwischen diesen (vgl. Kapitel 3.5.2), son- 
dern auch die Frage nach einer sinnvollen und fairen Evaluation der Vor- 
hersagen. Läge beispielsweise der Klassentrennwert für die Lebensdauer bei 
Tt = 60min, kann dann eine Vorhersage einer kurzen Lebensdauer für ein 
Zellobjekt, das eine Lebensdauer von wenigen Minuten mehr als 60 min auf- 
weist, als falsch bezeichnet werden? Man kann diese Problematik zumindest 
abfedern, indem man Objekte mit kurzer und langer Lebensdauer klarer se- 
pariert. Dies lässt sich beispielsweise durch die Wahl eines symmetrischen 
Übergangsbereichs [T — 7’; t + d! umsetzen, der bei der Evaluation keine 
Berücksichtigung findet. Je größer 7’ ist, desto deutlicher ist die Separation. 
Eine qualitative und quantitative Untersuchung des Einflusses von 7’ sowie 
der Wahl des Klassentrennwerts 7 ist in Anhang B für eine beispielhafte Vor- 


hersage der Lebensdauer dargestellt. 


126 


3.6 Gütemaße für die Evaluation 


Tabelle 3.1: Kontingenztabelle für die binäre Evaluation nach Heidke (1926). 


Beobachtung — Ereignis (J) Nicht-Ereignis (N) 
Vorhersage | 
Ereignis (J) a b 

Treffer Falscher Alarm 

(Hit) (False Alarm) 
Nicht-Ereignis (N) c d 
Versäumnis | Korrekte Nicht-Vorhersage 
(Miss) (Correct Rejection) 


Ein Spezialfall der kategorischen Evaluation ist im Fall von nur zwei Klassen 
die binäre Evaluation, welche für viele andere meteorologische Fragestellun- 
gen Anwendung findet, insbesondere auch im Bereich der Vorhersage kon- 
vektiver Zellen: Tritt ein Gewitter auf? Produziert eine Zelle Hagel? Wird sich 
heute in einer konvektiven Zelle ein Tornado entwickeln? All diese Fragen 
können mit ja oder nein beantwortet werden - ein Ereignis tritt also ein oder 
eben nicht. Analog stellt sich hier nun beispielsweise die Frage: Wird eine de- 
tektierte Zelle eine lange Lebensdauer haben? Zur Quantifizierung verschie- 
dener Gütemaße ist für solche Fragestellungen eine Kontingenztabelle hilf- 
reich, welche Vorhersagen und Beobachtungen gegenüberstellt (Tabelle 3.1). 
Die Buchstaben a, b, c und d stehen darin für die jeweilige Anzahl von regis- 
trierten Zellobjekten. Die Summe der vier Werte ergibt den Umfang des zur 
Evaluation verwendeten Teils des Testdatensatzes Nr, =a+b+c+d<NT 
mit dem Gesamtumfang des Testdatensatzes Nre. Dabei ist N4, abhängig von 
der Wahl des Übergangsbereichs, wobei im Fall ohne Übergangsbereich gilt: 
Nio = Nre. 
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Deterministische Gütemaße 


Die Trefferrate (Hit Rate, H) gibt Auskunft darüber, wie groß der Anteil der 
korrekten J-Vorhersagen an der Gesamtzahl von J-Beobachtungen ist (Tabel- 
le 3.2; z.B. Doswell et al., 1990). Die Fehlalarmrate (False Alarm Rate, F) 
hingegen zeigt an, wie groß der Anteil der falschen J-Vorhersagen an der 
Gesamtzahl von N-Beobachtungen ist. H soll folglich möglichst groß und F 
möglichst klein sein. Anzustreben ist eine klar positive Differenz aus beiden. 
Diese wird auch als True Skill Statistic (TSS) oder Peirce Skill Score bezeich- 
net (Peirce, 1884). 

Das Erfolgsverhältnis (Success Ratio, SR) und das Fehlalarmverhältnis (Fal- 
se Alarm Ratio, FAR) geben die Anteile der korrekten bzw. falschen 
J-Vorhersagen an allen J-Vorhersagen an (z.B. Doswell et al., 1990). Eines 
der beiden Maße genügt bereits für eine Quantifizierung der Belastbarkeit ei- 
ner J-Vorhersage. Ist das FAR beispielsweise sehr groß, so tritt in den meisten 
Fällen einer J-Vorhersage ein Nicht-Ereignis auf. 

Die Genauigkeit einer Vorhersage ist intuitiv durch den Anteil aller korrek- 
ten Vorhersagen an allen Vorhersagen gegeben, welcher als Proportion Cor- 
rect (PC) bezeichnet wird (Finley, 1884). Der Critical Success Index (CST) 
vernachlässigt korrekte N-Vorhersagen bei der Bestimmung der Genauig- 
keit (Gilbert, 1884). 

Der Bias (B) ist ein Indikator für sogenanntes Over- und Underforecas- 
ting. Er vergleicht die Anzahl von J-Vorhersagen mit der Anzahl von 
J-Beobachtungen. Ist beispielsweise B > 1, so sagt ein Modell oft Ereignisse 
vorher, jedoch ohne dass das Ereignis in der Folge eintritt (Overforecasting). 
Das Odds Ratio (OR) gibt das Chancenverhältnis für die Chance an, ein 
Ereignis zu beobachten (z.B. Stephenson, 2000). Ist OR > 1, so ist die 
Chance für eine J-Beobachtung bei einer J-Vorhersage größer als bei einer 


N-Vorhersage. 
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Tabelle 3.2: Ubersicht iiber verschiedene (deterministische) Gütemaße im Zusammenhang zur 
Kontingenztabelle (Tabelle 3.1), sowie deren Berechnung, Wertebereich W und den Aspekt der 
Vorhersage, den sie beleuchten. Der optimale Wert für jedes Gütemaß ist in fetter Schrift bzw. in 
runden Klammern dargestellt. Die Abkürzungen für die Aspekte lauten U (Unterscheidungsver- 
mögen), B (Belastbarkeit), G (Genauigkeit), OU (Over- oder Underforecasting) und C (Chan- 
cenverhältnis). Der Index Z steht hier für Zufall. Die Formelzeichen in der Berechnung des ETS 
und HSS stehen für M = (Ni, — a)(N}, — d) — be und A = (Ni, — a) (Np, — d) — 2bc + ad. 


Gütemaß (Score) Berechnung W Aspekt 

Hit Rate H= SE 0;1 U 

(Prob. of Detection) 

False Alarm Rate F= Bé 0;1 U 

(Prob. of False Det.) 

False Alarm Ratio FAR = = 0;1 B 

Succes Ratio SR = 35 0;1 B 

Proportion Correct PC= ahd 0;1 G 
Te 

Critical Success Index CSI = ae 0;1 G 

(Threat Score) 

Bias B= ob 3 1) OU 

Odds Ratio OR = 4 CH C 

(Chancenverhältnis) 


Gütemaß (Skill Score) 


True Skill Statistic TSS = H — F —1; 1] U 
(Peirce Skill Score) 

Equitable Threat Score ETS = ad pe 4 ;1] CSI vs. CSIz 
(Gilbert Skill Score) 

Heidke Skill Score HSS = Zich) -1;1] PC vs. PCz 


129 


3 Methoden der Statistik und des maschinellen Lernens 


Der Equitable Threat Score (ETS) nach Gilbert (1884) sowie der Heidke Skill 
Score (HSS) nach Heidke (1926) vergleichen auf Basis des CSZ bzw. des 
PC die Vorhersagen mit einer zufälligen Vorhersage, bei der die Vorhersa- 
gen statistisch unabhängig von jeglichen Beobachtungen sind. Ist ETS > 0 
bzw. HSS > 0, so ist die Vorhersage besser als eine solche zufällige Vorher- 
sage. 

Das ROC-Diagramm (Relative/Receiver Operating Characteristic) kom- 
biniert grafisch 7 und F (Abbildung 3.4; z.B. Mason, 1982). Hier 
ist ein Vergleich von verschiedenen Realisierungen eines Vorhersagemo- 
dells möglich, wobei Realisierung ein bestimmtes Modell-Setup bezeich- 
net (s. Kapitel 6.2.2). In den Kapiteln 6.2 bis 6.4 dient das ROC-Diagramm 
dazu, einen Überblick über Realisierungen der logistischen Regression und 
des Random Forests zu schaffen, die auf verschiedenen Werten des Ent- 
scheidungstrennwerts u in Bezug auf p(y = 1 | x = xj) bei der Zu- 
ordnung der Vorhersagen zu den beiden Klassen des Prädiktanden beru- 
hen (vgl. Gleichungen (3.36), (3.71) und (3.72)). 

Eine perfekte Modellvorhersage liegt im Diagramm links oben, sodass der 
Abstand D = 2"9>TSS zur Diagonalen maximal, nämlich D = 205 ist. Lie- 
gen alle Realisierungen eines Modells links oben, ist die Fläche unter der 
ROC-Kurve, die Area Under the Curve (AUC), maximal, nämlich AUC = 1. 
Ist AUC < 0,5, so befindet sich die ROC-Kurve (größtenteils) rechts der Dia- 
gonalen, was auf eine schlechtere Vorhersagegüte als bei einer unabhängigen 


zufälligen Vorhersage hindeutet. 
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Abbildung 3.4: Schematische Darstellung eines ROC-Diagramms. Die dunkelblauen Punkte 
stellen die Werte von H und F für unterschiedliche Realisierungen einer Vorhersage dar und 
sind zur ROC-Kurve verbunden. In braun ist der Bezug zwischen der TSS und dem Abstand der 
ROC-Kurve zur Diagonalen geometrisch verdeutlicht. 


Probabilistische Gütemaße 


Während die ROC-Kurve zur Bestimmung des (je nach Fragestellung) opti- 
malen Entscheidungstrennwerts u anhand verschiedener Realisierungen der 
Modelle mit unterschiedlichen Werten für u nützlich ist, dient eine mehrfa- 
che Modellbildung mit unterschiedlichen Trainings- und/oder Testdatensät- 
zen dazu, die Abhängigkeit von den verwendeten Trainings- und/oder Test- 
datensätzen zu quantifizieren (s. Kapitel 6.1.1; z. B. James et al., 2013). 

Zum einen ist ein Vergleich mehrerer ROC-Kurven möglich, die auf verschie- 
denen Aufteilungen des Datensatzes in Trainings- und Testdaten beruhen. 
Finden sich große qualitative Unterschiede in den Verläufen der ROC-Kurven 


unter Verwendung unterschiedlicher Trainingsdaten bei immer den gleichen 
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Testdaten, so ist das Modell stark von der Auswahl der Trainingsdaten abhän- 
gig, d.h. die Trainingsdaten sind nicht repräsentativ für den gesamten Daten- 
satz. Finden sich große qualitative Unterschiede in den Verläufen der ROC- 
Kurven unter Verwendung der gleichen Trainingsdaten und unterschiedlicher 
Testdaten, so sind die Testdaten nicht repräsentativ für den gesamten Daten- 
satz. In beiden Fällen fällt es schwer, ein optimales u zu bestimmen. 

Zum anderen kann man für eine bestimmte Realisierung eines Modells 
alleine, also mit festem u, die Sensitivität bezüglich der Trainings- und 
Testdaten untersuchen. Eine Gruppe von Vorhersageläufen eines Modells mit 
unterschiedlichen Ausgangsdaten wird als Ensemble bzw. Modellensemble 
bezeichnet. Die Gruppe setzt sich aus sogenannten Ensemblemitgliedern 
zusammen. Der Ensembleansatz hat die Quantifizierung der Unsicher- 
heit (Schwankungsbreite) der Vorhersagen zum Ziel. Die Varianz der 
Gütemaße innerhalb des Ensembles ist wiederum ein Maß für die Robustheit 
des Modells bezüglich des Datensatzes. Die Verteilung der Vorhersagen 
der Ensemblemitglieder für einzelne Zellobjekte bietet die Möglichkeit 
einer probabilistischen Vorhersage der jeweiligen Lebensdauer. Je höher die 
Varianz der Vorhersagen der einzelnen Mitglieder ist, desto unsicherer ist die 


Vorhersage (s. u.). 


Der Ensembleansatz ermöglicht eine zellspezifische Betrachtungsweise bei 
der Evaluation der Vorhersagen der Ensemblemitglieder. Für jedes der Zell- 
objekte im Testdatensatz können separat die Vorhersagen der Mitglieder 
jo € {0; 1} in eine gemeinsame Vorhersage für die Wahrscheinlichkeit ei- 
nes Ereignisses überführt werden, sodass die Ensemblevorhersage für das j-te 


Zellobjekt lautet: 
1 Nens 


a(ens) a(q) 
OS) — Ae 3.76 
Lë Nan 2’ S (3.76) 
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Zur Beurteilung der Qualität der Vorhersagen bezüglich aller Zellobjekte 
des Testdatensatzes ist anschließend der Brier Score (BS) nützlich. Dieser 
entspricht im Wesentlichen dem mittleren quadratischen Fehler MSE aus 
Gleichung (3.23), wobei der beobachtete Wert des Prädiktanden y; nur die 
Werte 0 (Nicht-Ereignis) und 1 (Ereignis) annimmt (z. B. Wilks, 2006): 


Ba y (y ké y) p (3.77) 


Der ursprünglich von Brier (1950) eingeführte Score berücksichtigte zusätz- 


lich die jeweiligen quadratischen Abweichungen vom Gegenereignis der Be- 


obachtung: 
N! 
1 Te alene 2: tens 2 
BSoris = wc LL { bn sell + [a -y)- Dell } =2BS. 
Te j=1 
(3.78) 
Wie für den MSE ist der optimale Wert BS,,; = 0, nach oben bildet BS = 1 die 


Grenze. Eine Vorhersage mit SCH 


nicht klar ist, ob y = 0 oder y = 1 eintreten wird (50 %-Vorhersage bzw. un- 
a(ens) 


sichere Vorhersage). Dies führt zu BS = 0,25. Eine Vorhersage, bei der f; 


zufällig aus einer uniformen Verteilung der Eintrittswahrscheinlichkeiten ge- 


= 0,5 Y j entspricht der Vorhersage, dass 


zogen wird, führt zu BS = 0,33 (zufällige Vorhersage). 
Zum Vergleich des BS einer Vorhersage mit einer Referenzvorhersage, wie 
beispielsweise der unsicheren oder zufälligen Vorhersage, ist der Brier Skill 
Score (BSS) geeignet, der über 

BS — BSyer BS 


BSS = =1 (3.79) 
BS opt — BSref BSref 


definiert ist. Für BSS > 0 ist die Vorhersagegüte höher als bei der entspre- 


chenden Referenzvorhersage. 
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Die über alle Zellobjekte gemittelte Standardabweichung der Vorhersagen 
(4) 
J 

te (Spread) des Ensembles gemäß 


der Ensemblemitglieder J, stellt ein Maß für die mittlere Schwankungsbrei- 


Hu 
GE 3 een (3.80) 
Ni, j=l 7 
dar, mit 
n 1 Nens n 2 
ei! — L (9-9), (3.81) 
Nens —1 q=1 


welche — gleicher Testdatensatz für jedes Ensemblemitglied vorausge- 


P eine Bernoulli-Variable ist, kann oi nur 


[0.5 Nens| + 1 Werte annehmen. Je größer Gi ist, desto deutlicher unter- 


setzt — halbbinomial ist: Da $ 


scheiden sich die Vorhersagen der Ensemblemitglieder im Mittel über alle 
Zellobjekte. 


3.6.2 Kontinuierliche Evaluation 


Regressionsverfahren haben zum einen den Vorteil, dass die erstellten Vor- 
hersagen einen kontinuierlichen Wertebereich abdecken. Demzufolge erfolgt 
beispielsweise die Schätzung der Lebensdauer eines Zellobjekts in Minuten. 
Aus der Nowcasting-Perspektive scheint eine solche Schätzung prinzipiell er- 
strebenswerter als eine Vorhersage, die nur unterscheidet, ob eine konvektive 
Zelle eine kurze oder lange Lebensdauer haben wird. Details hierzu finden 
sich in der Diskussion der Ergebnisse der Modellstudien in den Kapiteln 6 
und 7. Zum anderen entfällt bei Regressionsverfahren die Einführung eines 
Klassentrennwerts mit dem zugehörigen Übergangsbereich — zwei Freiheits- 
grade, welche die Evaluation der Vorhersagen potentiell weniger klar und 


eindeutig gestalten. 
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3.6 Gütemaße für die Evaluation 


Die Untersuchung und Evaluation von Regressionsverfahren geschieht 
in den Kapiteln 6.3.2 und 6.4.2 ausschließlich mit einem Ensemble von 


Modellen, welche auf unterschiedlichen Trainingsdaten basieren. Von den 
(q) 


J 
ausgehend, welches sich analog zu Gleichung (3.76) berechnen 


einzelnen Vorhersagen der Mitglieder 3.” € R oder vom Ensemblemittel 


(er) 
lässt, kann dann beispielsweise der MSE bzw. RMSE zur Beurteilung der 
Vorhersagegiite oder tiber Gleichung (3.80) die mittlere Schwankungsbreite 
des Ensembles Gens berechnet werden. Zur grafischen Evaluation ist es 
hilfreich, die Häufigkeiten der vorhergesagten Werte des Prädiktanden den 


jeweiligen beobachteten Werten gegenüberzustellen (s. Kapitel 6.1.2). 
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Zur Analyse der Zusammenhänge zwischen dem Lebenszyklus konvekti- 
ver Zellen und den vorherrschenden atmosphärischen Umgebungsbedingun- 
gen erfolgt eine Kombination zweier Datensätze. Der Lebenszyklus kon- 
vektiver Zellen über Deutschland wird mit Hilfe von Daten aus dem KON- 
RAD-Verfahren des DWD abgebildet, einem Verfahren zur Zelldetektion und 
-verfolgung basierend auf Radardaten (Kapitel 4.1). Die atmosphärischen 
Umgebungsbedingungen werden anhand von Modelldaten des ehemals ope- 
rationellen NWV-Modells COSMO-EU des DWD untersucht (Kapitel 4.2). 
Beide Datensätze sind für die vorliegende Arbeit für den Zeitraum der Som- 
merhalbjahre 2011 — 2016 verfügbar (1. April — 30. September), welche den 
Zeitraum eines Jahres darstellen, innerhalb dessen die meisten Gewitter in 
Deutschland auftreten (z. B. Wapler und James, 2015). Diese sechs Sommer- 
halbjahre werden fortan als Untersuchungszeitraum bezeichnet. Kapitel 4.3 
beschreibt die Datenaufbereitung beider Datensätze, wodurch ein geeigneter 


kombinierter Datensatz für die weiteren Untersuchungen generiert wird. 
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4.1 Daten aus dem radarbasierten Verfahren 
KONRAD 


4.1.1 Radarmessungen des Deutschen Wetterdienstes 


Niederschlagsradare ermöglichen die Fernerkundung von Niederschlag über 
ein indirektes Messprinzip (z. B. Sauvageot, 1992). Dabei ist der Begriff Ra- 
dar ein Akronym für Radio Detection and Ranging. Ein in den meisten Fäl- 
len verwendetes gepulstes Radar sendet kurze Pulse gebündelter elektroma- 
gnetischer Strahlung im Frequenzbereich von Radiowellen (genauer: Mikro- 
wellen) in eine gewünschte Raumrichtung, die von verschiedenen Streukör- 
pern in der Atmosphäre wie beispielsweise Hydrometeoren im durchlaufenen 
Luftvolumen gestreut werden. Der rückgestreute Anteil wird von der Radar- 
antenne empfangen und in ein digitales Signal umgewandelt. Aus den Eigen- 
schaften des empfangenen Signals (Radarechos) können unter anderem Rück- 
schlüsse auf die Position von Streukörpern und deren Rückstreuung gezogen 
werden. Die (Radar-)Reflektivität beschreibt die Summe aller Rückstreuquer- 
schnitte der in einem Teil des Strahlvolumens vorhandenen Streukörper. Un- 
ter der Annahme von reiner Rayleigh-Streuung ist der Rückstreuquerschnitt 
eines Streukörpers proportional zur sechsten Potenz seines Durchmessers. 
Meteorologisch relevant ist schließlich der (Radar-)Reflektivitätsfaktor z, der 
das sechste statistische Moment des Streukörperdurchmessers D mit einer 
bestimmten Anzahldichteverteilung n(D) darstellt: 
Dinax 
z= n(D)D°dD . (4.1) 
Dinin 

Für diesen gilt folgender Zusammenhang zu der vom Radar empfangenen 
Leistung P: 


d2 


Z = 
Kj 
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Darin kennzeichnet c die sogenannte Radarkonstante, die sämtliche techni- 
schen Faktoren des Radargeräts zusammenfasst, d die Entfernung der Streu- 
körper und K den komplexen Dielektrizitätsfaktor. Dabei ist für flüssige 
Wasserpartikel |K|? ~ 0,93 und für Eispartikel etwa |K|? € (0,16; 0,21). 
Die Rückstreuung von einem Eispartikel eines bestimmten Durchmessers ist 
demnach etwa fünfmal schwächer als die an einem Wassertropfen gleichen 
Durchmessers. Zur Bestimmung von z aus Radarmessungen wird im opera- 
tionellen Betrieb des DWD der Dielektrizitätsfaktor von flüssigem Wasser 
verwendet, was eine Unterschätzung von z im Fall (komplett) gefrorener Hy- 
drometeore zur Folge hat. Da z in seiner ursprünglichen Einheit (mmf m~?) 


über viele Größenordnungen variiert, wurde der Reflektivitätsfaktor Z einge- 


führt: 
Z = 10 logy, (=) (4.3) 
mm m 


Die Einheit von Z ist dabei dBZ, wobei Z für Regentropfen typischerwei- 
se zwischen 0 (kaum messbarer Niederschlag) und 60 dBZ (heftiger Stark- 
regen) variiert. Für Z kann ein approximativer Zusammenhang zur Regen- 
rate R (mmh~!) unter der Annahme einer Anzahldichteverteilung von Re- 
gentropfen hergestellt werden, die mit wachsendem Durchmesser exponen- 
tiell abnimmt (Marshall und Palmer, 1948). Dieser Zusammenhang ist als 
Z-R-Beziehung bekannt: 

Z=aR’ . (4.4) 


Dabei wurden in einer großen Anzahl von Studien empirisch viele verschie- 
dene Werte für die Parameter a und b je nach der Niederschlagsart, der Wol- 


kenstruktur und der Stärke des Niederschlags bestimmt. Der DWD verwendet 
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für seine C-Band-Radare (Frequenzbereich um 5,6 GHz) bei manchen Ra- 
darprodukten eine standardmäßige Z-R-Beziehung mit den festen Parame- 
terwerten a = 256 und b = 1,42, bei einigen Produkten findet eine mit Hil- 
fe des tatsächlichen Werts des Reflektivitätsfaktors sowie seines horizonta- 
len Gradienten verfeinerte Z-R-Beziehung Anwendung (Bartels et al., 2004; 
Weigl, 2015). 

Neben dem über P, bestimmbaren Reflektivitätsfaktor messen Radargeräte 
mit Doppler-Technik zusätzlich die Radialgeschwindigkeit der Hydrometeore 
anhand der Frequenzverschiebung der elektromagnetischen Wellen, die auf 
den Doppler-Effekt zurückzuführen ist (z. B. Blahak, 2005). Polarisationsra- 
dare senden und empfangen Wellen auf zwei unterschiedlichen Polarisations- 
ebenen (Dual-Pol), welche je nach dem Achsenverhältnis eines Streukörpers 
unterschiedlich stark zurückgestreut werden (Vivekanandan et al., 1999). 
Damit können näherungsweise verschiedene Arten von Hydrometeoren 


klassifiziert werden. 


Der Radarverbund des DWD besteht aktuell (Stand: 12. Januar 2021) aus 
17 operationellen Niederschlagsradaren mit Dual-Pol Doppler-Technik (Ab- 
bildung 4.1). Jedes der Einzelradargeräte ist auf einem 20 — 75 m hohen Stahl- 
oder Betonturm montiert, welcher sich im orografisch gegliederten Gelän- 
de Süd- und Mitteldeutschlands auf einem Berggipfel oder in exponiertem 
Terrain befindet. Dadurch wird eine Abschattung der Radarstrahlen durch 
Objekte (Gebäude, Vegetation etc.) weitestgehend vermieden. Die Reich- 
weite der Einzelradargeräte beträgt rund 150 km. Die Zusammensetzung des 
Radarverbunds änderte sich im Untersuchungszeitraum 2011 — 2016 mehr- 
mals (z. B. Winterrath et al., 2017). Im Zuge der Umstellung von Single- auf 
Dual-Pol-Technik wurden die Standorte von einigen der zunächst 16 opera- 
tionellen Einzelradare aus innerstädtischen Bereichen auf nahe gelegene, we- 
niger bebaute Standorte verlegt. Am 3. April 2013 ging am Standort Mem- 
mingen das siebzehnte Radar in Betrieb. Während der Technikumstellung 
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Radarverbund des Deutschen Wetterdienstes Deutscher Wetterdienst 6 


BIS, 
GR 


Legende 
8 0 2040 80 120 160 
© _ operationelles Verbundradar SCC — 
@  Qualitätssicherungsradar Kilometer 
© ` Ausfallsicherungsradar (Ersatz für Radarstandort Emden) Maßstab 1:3.000.000 


—— 150 km Abdeckungsradius 


Stand: 07.03.2018 © GeoBasis-DE / BKG 2017 


Abbildung 4.1: Karte der Standorte der zum Radarverbund des DWD gehörigen Niederschlags- 
radare (Stand 07. März 2018; DWD, 2021b). 
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betrieb der DWD ein mobiles Ausfallsicherungsradar anstelle der operatio- 
nellen Radare unmittelbar neben den Standorten im Randbereich des Radar- 
verbunds, wo größere Gebiete von keinem der übrigen Radare erfasst wer- 
den (Essen, Rostock, Dresden, Feldberg im Schwarzwald). Das Radar Neu- 
heilenbach in der Eifel wurde durch das belgische Radar Wideumont und das 
Radar Eisberg nahe Moosbach in der Oberpfalz durch das tschechische Radar 
Brdy abgesichert. Bis zum Ende des Untersuchungszeitraums waren bis auf 
den Standort Emden, der am 27. Februar 2018 durch den Standort Borkum 
ersetzt wurde, alle Radare auf Dual-Pol Doppler-Technik umgestellt. 

Infolge der Technikumstellung sowie gelegentlicher kurzer Datenausfäl- 
le (z.B. aufgrund von Wartungsarbeiten) sind die radarbasierten Nie- 
derschlagsmessungen über Deutschland keineswegs homogen. Dank ei- 
ner hochwertigen Filterung von Störeffekten, welche bei Radarmessun- 
gen auftreten, und einer Qualitätskontrolle der Radardaten seitens des 
DWD (z.B. Seltmann und Riedl, 1999) wird die Qualität der Daten deut- 
lich gesteigert, auch wenn einige Effekte nicht korrigiert werden können wie 
z.B. die räumliche Strahlaufweitung und -abschattung. Die aus den Daten 
abgeleiteten Radar(bild)produkte sind dennoch für die Anwendung einer au- 
tomatischen Interpretation konvektiver Zellen geeignet (s. Kapitel 4.1.2). Die 
Messungen der Einzelradargeräte werden auf ein äquidistantes Gitter proji- 
ziert, welches nahezu ganz Deutschland und die Randgebiete verschiedener 
Nachbarstaaten abdeckt (DWD, 2020). Solche Zusammenstellungen bezeich- 
net der DWD als Deutschland-Komposits. Ein wichtiges Radarprodukt ist 
das RX-Produkt, ein Deutschland-Komposit des Reflektivitätsfaktors Z aus 
dem oberflächennahen und geländefolgenden Niederschlagsscan (Elevations- 
winkel zwischen 0,5 und 1,8°) mit einer horizontalen Gitterauflösung von 


1 x 1 km? und einer zeitlichen Auflösung von 5 min. 
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4.1.2 Der Zellverfolgungsalgorithmus KONRAD 


Die Einfiihrung von KONRAD als operationelles Verfahren im Jahr 2000 
zielte darauf ab, das konvektive Unwettergeschehen aus den Radarbil- 
dern herauszufiltern und grafisch darzustellen, um Vorhersager*innen und 
externen Nutzer*innen eine schnelle Übersicht über die von Unwettern 
gefährdeten Gebiete zu geben und kurzfristig zu treffende Entscheidun- 
gen zu erleichtern (Lang et al., 2003). Das Verfahren stellt darüber hin- 
aus ein wichtiges Werkzeug für den automatisierten Warnprozess Auto- 
WARN im Nowcasting- Verfahren NowCastMix des DWD dar (vgl. Kapitel 1; 
James et al., 2018). Außerdem wird es im Rahmen des Systems webKON- 
RAD als Teil des Feuerwehrinformationssystems FeWIS intensiv von Ein- 
richtungen des Katastrophenschutzes genutzt (DWD, 2021d). 

Das RX-Produkt des DWD, das für jede Gitterzelle den maximalen Wert 
von Z aus dem Niederschlagsscan der entsprechenden Einzelradare enthält, 
stellte während des Untersuchungszeitraums die Grundlage für das automati- 
sche Verfahren KONRAD (Konvektionsentwicklung in Radarprodukten) zur 
Verfolgung von konvektiven Zellen dar! (Lang, 2001). KONRAD isoliert aus 
dem RX-Produkt die Radarechos konvektiver Zellen. Es zeigt ihre aktuelle 
Position an und zeichnet ihre Zugbahnen auf (s. u.). Darüber hinaus erfolgt 
die Bestimmung von Warnindikatoren (Warn-Flags) bezüglich typischer Be- 
gleiterscheinungen (starker) konvektiver Zellen (Hagel, Starkregen und kon- 
vektive Starkwindböen) sowie eine Abschätzung der Intensität und des Ent- 
wicklungsstadiums der Zellen. Auch extrapoliert KONRAD die Zugbahnen 
für die nächsten 30 bzw. 60 min auf der Basis der Zellverlagerung während 


der vorherigen Zeitschritte. Verschiedene Zellattribute wie z.B. die Position, 


' Bei der operationellen Einführung von KONRAD wurde ursprünglich das PX-Produkt ver- 
wendet, welches Z für die jeweiligen Einzelradare in sechs diskreten Klassen (Schwellenwerte: 
19, 28, 37, 46, 55 dBZ) beinhaltete. 
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4.1 Daten aus dem radarbasierten Verfahren KONRAD 


die Zellgröße (horizontale Ausdehnung) und die Verlagerungsrichtung der 
Zelle werden abgespeichert und in der operationellen Anwendung grafisch 


aufbereitet und ausgegeben (Abbildung 4.2). 


Kurzbeschreibung der Zelldetektion und der Zellverfolgung in 
KONRAD 


KONRAD definiert sogenannte Primärzellen, welche eine zusammenhän- 
gende Fläche von Radarbildpixeln darstellen, die einen Schwellenwert von 
Z = 46dBZ erreichen bzw. überschreiten. Dieser Wert des Reflektivitäts- 
faktors entspricht in etwa einer Regenrate von R ~ 23mmh7!. Es müssen 
mindestens 15 benachbarte Pixel mit einer Überschreitung dieses Schwellen- 
werts existieren, damit KONRAD eine Zelle detektiert und als Primärzelle 
abspeichert. Aufgrund dieser Bedingung kann KONRAD als radarbasiertes 
Verfahren schwache konvektive Zellen nicht detektieren, die den Schwellen- 
wert von Z für weniger als 15 benachbarte Pixel überschreiten. Zudem kann 
KONRAD auch bei größeren Zellen Teile des Cumulus- und des Dissipa- 
tionsstadiums konvektiver Zellen nicht gut erfassen. Auswerteverfahren, die 
auf Satellitendaten basieren, sind hier weniger Grenzen gesetzt. Diese können 
konvektive Zellen deutlich früher und länger detektieren (vgl. Kapitel 2.4; 
z.B. Zinner et al., 2008). Aufgrund der erwähnten Kriterien repräsentieren 
Primärzellen eher einen ausgeprägten Niederschlagsschwerpunkt konvektiver 
Zellen mit hoher Intensität. Das Umfeld der Zellen mit geringeren Werten 
des Reflektivitätsfaktors bleibt außer Acht, sodass die Information über die 
Ausdehnung des gesamten Niederschlagsbereichs der Zellen verloren geht. 

Bei der ersten Detektion einer Primärzelle wird ihr aufgrund der zeitli- 
chen Auflösung der Radarbilder von 5 min ein Alter von 2 min zugewiesen. 
Jeder Primärzelle ordnet KONRAD einen reflektivitätsgewichteten Mittel- 
punkt (ein sogenanntes Zentroid) sowie einen rechteckigen Rahmen zu, der 
die Primärzelle so komplett einschließt, dass seine Fläche minimal ist. Die 
Verfolgung konvektiver Zellen verläuft dergestalt, dass KONRAD für jedes 
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aktuell registrierte Zentroid im Vorprodukt (5 min vorher) in einem geeigne- 
ten Radius ein korrespondierendes Zentroid sucht. Den Radius wählt KON- 
RAD entsprechend einer maximalen realistischen Verlagerungsgeschwindig- 
keit von CZ max = 110 kmh"! plus einer möglichen Verlagerung des Zentro- 
ids innerhalb der Primärzelle. Dabei sind folgende Rahmenbedingungen rele- 
vant: Das aktuelle Zentroid soll nahe am zuvor ermittelten Prognosepunkt 
liegen, die Strecke soll möglichst kurz sein und die flächenhafte Ausdeh- 
nung der Primärzelle soll konsistent sein, d.h. die Fläche von Primärzellen 
darf sich nicht unrealistisch stark vergrößern oder verkleinern. Ordnet KON- 
RAD einer aktuellen Primärzelle ein korrespondierendes Zentroid im Vor- 
produkt zu, wird die mit diesem Zentroid assoziierte Primärzelle mit dem 
Alter t als Vorgängerin der aktuellen Primärzelle angesehen, welche nun ein 
Alter von t + 5 min hat. Primärzellen, für die KONRAD kein korrespondie- 
rendes Zentroid im Vorprodukt finden konnte, werden als Neubildung behan- 
delt. Solche, die KONRAD im aktuellen Produkt nicht wiederfindet, werden 
als zerfallende Zellen behandelt. Zur frühzeitigen Erkennung potentiell neu 
gebildeter Zellen und zur Erfassung dissipierender Zellen detektiert KON- 
RAD auch Sekundärzellen, die durch die Überschreitung des Schwellenwerts 
Z = 37 dBZ gekennzeichnet sind. Diese werden ebenfalls abgespeichert und 
wahlweise in der operationellen Anwendung visualisiert. 

Die Verfolgung konvektiver Zellen ermöglicht eine erweiterte Analyse der 
Zellen innerhalb von KONRAD. Unter anderem erfolgt mittels eines Warnin- 
dikators ein Hinweis zu Starkregen bei Überlappung der von einer verfolgten 
Primärzelle überdeckten Regionen zu mehreren aufeinanderfolgenden Detek- 
tionszeitpunkten. In diesen Fällen können sich aufgrund der langsamen Verla- 
gerungsgeschwindigkeit der Zellen in kurzer Zeit lokal hohe Niederschlags- 
mengen akkumulieren. Der Warnindikator für Hagel steht im Zusammenhang 
mit der Anzahl von Pixeln einer Primärzelle, die Z > 55 dBZ überschrei- 
ten (Mason, 1971). 
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Wie bei allen Zellverfolgungsalgorithmen treten auch in KONRAD 
bisweilen unvermeidbare Fehlzuordnungen auf, beispielsweise wenn das 
Verfahren im Vorprodukt eine falsche Zelle als Vorgängerin auswählt, die 
in der Nähe der korrekten Vorgängerzelle lag. Solche Fehlzuordnungen 
haben direkte Auswirkungen auf die den Primärzellen zugeschriebenen 
Lebenszyklen (s. Kapitel 4.3.2). Details zur Zellverfolgung in KONRAD 
finden sich in Lang et al. (2003). Für detaillierte Informationen zu weiteren 
radarbasierten Zellverfolgungsalgorithmen sei auf die Arbeiten zu den Ver- 
fahren TREC bzw. COTREC (Rinehardt und Garvey, 1978; Li et al., 1995), 
TITAN (Dixon und Wiener, 1993), TRACE3D (Handwerker, 2002; 
Schmidberger, 2018) und Rad-TRAM (Kober und Tafferner, 2009) ver- 


wiesen. 


Das VX-Produkt von KONRAD 


Das von KONRAD erstellte VX-Produkt bildet die Datengrundlage für die 
Analyse konvektiver Zellen in der vorliegenden Arbeit. Wie das RX-Produkt, 
auf dem das KONRAD-Verfahren basiert, liegt es in einer zeitlichen Auflö- 
sung von 5 min vor. Beim VX-Produkt handelt es sich um ASCH-Dateien, 
die in verschiedene Abschnitte gegliedert sind. Nach einer Kopfzeile zur 
Identifikation einer Datei folgt eine tabellarische Auflistung der im KON- 
RAD-Verfahren bestimmten Ausgabegrößen für die Primärzellen (z.B. die 
Identifikationsnummer der Primärzelle, Position des Zentroids, Fläche der 
Primärzelle). Die Auflistung beinhaltet all diejenigen Zellen als numerische 
Objekte, die KONRAD in den vergangenen 30 min detektierte. Jede Zeile 
gehört zu einer Primärzelle. Eine Zelle, die in diesem Zeitraum kontinuier- 
lich detektiert wurde, taucht demnach insgesamt siebenmal in der Tabelle 


auf. Die Sortierung in der Tabelle orientiert sich am Detektionszeitpunkt und 
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der Identifikationsnummer der Zellen. Im Anschluss folgt eine Auflistung al- 
ler Radarstationen, deren Daten in das jeweilige Radar-Komposit eingeflos- 
sen sind. Dariiber hinaus sind solche Stationen gekennzeichnet, die tempo- 
rär keine Daten lieferten (s.0.). Damit ist jederzeit nachvollziehbar, wie die 
exakte Datengrundlage des RX-Produkts aussah, welche in der Konsequenz 
Einfluss auf die Zelldetektion und -verfolgung durch KONRAD sowie die 
erkannten Primärzellen haben kann (s. Kapitel 4.3.2). Nach der Auflistung 
der Radarstationen folgt eine Ergänzungsliste, in der weitergehende Infor- 
mationen abgespeichert sind. Beispielsweise finden sich dort ergänzend zum 
oben beschriebenen Hagelindikator Informationen zu Hagelwarnungen aus 
einem fünfzehnminütlich vorliegenden 3D-Radarprodukt, die auf dem Kri- 
terium nach Waldvogel et al. (1979) basieren (Lang et al., 2003). Außerdem 
sind dort die Positionen der Sekundärzellen aufgelistet, die innerhalb von 
KONRAD auch in die Abschätzung der allgemeinen mittleren Verlagerungs- 
richtung eingehen. Ebenfalls sind detaillierte Informationen über die exakte 
geografische Position von größeren Starkregengebieten abgespeichert. 

Der vorliegende VX-Datensatz für den Untersuchungszeitraum der Sommer- 
halbjahre 2011 — 2016 ist nicht lückenlos: Für 158 Zeiträume mit jeweils ei- 
ner Dauer zwischen 5 min und 24h fehlen Dateien oder sind fehlerhaft. Letz- 
teres kann beispielsweise eine fehlerhafte zeitliche Zuordnung sein, die nach- 
träglich manuell korrigiert wurde. Dass Dateien komplett fehlen, ist meist nur 
für einen Zeitraum von 5 — 60 min der Fall. 

Als Nachfolge von KONRAD wird momentan die Neuentwicklung des 
Systems KONRAD3D präoperationell getestet (Werner, 2020). Dieses Ver- 
fahren berücksichtigt Radarmessungen aus unterschiedlichen Höhenschich- 
ten. Außerdem kann es auf neu entwickelte Techniken zur Qualitätssi- 
cherung von Radardaten und zur quantitativen Niederschlagsabschätzung 
zurückgreifen sowie die Methodik zur Hydrometeorklassifikation ausnut- 
zen (vgl. Kapitel 4.1.1). 
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4.2 Daten aus dem Modell COSMO 
4.2.1 Kurzbeschreibung von COSMO 


Das COSMO-Modell ist ein nicht-hydrostatisches, atmosphärisches Vorher- 
sagemodell für ein räumlich begrenztes Teilgebiet der Erde (Limited Area 
Model; Schättler et al., 2019). Seine ursprüngliche Version mit dem Na- 
men ‚Lokal Modell‘ (LM), welches Deutschland und Teile seiner Nach- 
barstaaten abdeckte und Vorhersagen für die kommenden 48h berechne- 
te, wurde vom DWD Ende der 1990er Jahre entwickelt und einen Monat 
vor der Jahrtausendwende gemeinsam mit dem damals neuen ‚Global Mo- 
dell‘ (GME) für die operationelle numerische Wettervorhersage bereitge- 
stellt (NWV; Schulz und Schättler, 2014). Knapp sechs Jahre später folgte die 
operationelle Einführung der Erweiterung des LM zum ‚Lokal Modell Euro- 
pa‘ (LME), das unter anderem eine Vergrößerung des Modellgebiets auf na- 
hezu ganz Europa und eine Verlängerung des Vorhersagezeitraums auf 78h 
vorwies. Im Jahr 2007 wurde das NWV-System um das ‚Lokal Modell Kür- 
zestfrist‘ (LMK) ergänzt, das in höherer Auflösung auf Deutschland fokus- 
sierte. Die Weiterentwicklung und Verbesserung des LM erfolgt im Rahmen 
des internationalen Consortium for Small-Scale Modelling (COSMO)?. Die- 
sem Zusammenschluss gehören neben dem DWD und dem Geoinformati- 
onsdienst der Bundeswehr die nationalen Wetterdienste der Schweiz, Itali- 
ens und Griechenlands sowie viele weitere meteorologische Institutionen aus 
meist europäischen Ländern an, die jeweils eigene operationelle Anwendun- 
gen des COSMO-Modells betreiben. 2007 wurde beschlossen, das LM in 
COSMO umzubenennen: Das LMK, das hauptsächlich Deutschland abdeckt, 
hieß fortan COSMO-DE. Das nahezu ganz Europa abdeckende LME erhielt 
den Namen COSMO-EU. Mittlerweile nutzt der DWD das Vorhersagemodell 
ICON (Icosahedral Nonhydrostatic [Model]) sowohl zur globalen als auch 


? Umfangreiche Informationen finden sich auf der Website: http: //cosmo-model.org. 
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seit 2016 zur europaweiten Wettervorhersage (ICON-Europa). Damit wurde 
COSMO-EU von ICON-Europa als Regionalmodell abgelöst. COSMO-D2, 
eine weiterentwickelte Version von COSMO-DE vervollständigt zusammen 
mit den entsprechenden Verfahren der Datenassimilation das aktuelle opera- 
tionelle NWV-System des DWD. Während der Anfertigung der vorliegenden 
Arbeit fand der schrittweise Übergang von COSMO-D2 zu ICON-D2 statt. 

COSMO zeichnet eine hohe Flexibilität bezüglich seines Einsatzbereichs 
aus. So dient es neben der Berechnung von hochaufgelösten regionalen 
Wettervorhersagen auch der Untersuchung verschiedenster wissenschaftli- 
cher Anwendungen und Fragestellungen auf unterschiedlichsten räumlichen 
und zeitlichen Skalen. Darüber hinaus wird es auf einer weiteren Entwick- 
lungslinie der Climate Limited-area Modelling-Community (CLM) als COS- 
MO-CLM für regionale Klimasimulationen eingesetzt (Rockel et al., 2008). 

Die horizontale Auflösung von COSMO in der operationellen DWD-Routine 
betrug im Untersuchungszeitraum rund 7km (0,0625 °, EU) bzw. etwa 
2,8km (0,025°, DE). Damit erfasst COSMO auch nicht-hydrostatische Ef- 
fekte auf Skalen der Größenordnungen 6 (10km) — @(100km). Während mit 
COSMO-EU im Vergleich zu den Globalmodellen bessere Vorhersagen unter 
anderem der bodennahen Wetterbedingungen, wie beispielsweise von Nebel, 
frontalen Niederschlägen und orografisch und thermisch induzierten loka- 
len Windsystemen im Fokus standen, zielte die hohe Auflösung von COS- 
MO-DE besonders auf die direkte Simulation von hochreichender Feucht- 
konvektion und deren Begleiterscheinungen ab (Schulz und Schättler, 2014; 
Baldauf et al., 2016). Die Modellgleichungen des COSMO-Modells beru- 
hen auf den fundamentalen Bewegungsgleichungen für nicht-hydrostatische, 
kompressible Strömungen ohne Skalenapproximationen (vgl. Kapitel 2.1.2; 
z.B. Vallis, 2017; Schättler et al., 2019) und sind um weitere Tendenzglei- 
chungen für den Wasserdampfgehalt (spezifische Feuchte) sowie den spezifi- 
schen Flüssigwassergehalt (Wolken- und Regentropfen) und den spezifischen 


Gehalt gefrorenen Wassers (Eis, Graupel, Schnee; jeweils als q® bezeichnet) 
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erweitert. Damit ergibt sich folgendes geschlossenes, nicht-lineares, gekop- 


peltes Gleichungssystem (Doms und Baldauf, 2018): 


D 
pa. = -Vp+pg-2PAxv-pV-F (4.5) 
D d d D 
Rp = a pV Wé E 1) On + "TO, (4.6) 
Dt Cy Cy Cy 
DT Dp 
e SE 4.7 
Ph ECH 
Dg") 
— 9. JO 450 4. 
pot Jus (4.8) 
p = plRa(1+B)T]' . (4.9) 


Darin steht Q, für die diabatische Wärmeproduktion pro Einheitsvolumen, 
Om für den Einfluss von Konzentrationsänderungen der Wasserbestandteile 
q®, J“ für den Diffusionsfluss der q®, S für deren Quellen und Senken 
und ĝ für einen erweiterten Term für die Anteile der verschiedenen Was- 
serphasen in der Definition der virtuellen Temperatur. In COSMO sind der 
Gehalt gefrorenen Wassers sowie der Flüssigwassergehalt lediglich optionale 
prognostische Variablen, sodass das Modell auch mit vereinfachten wolken- 
mikrophysikalischen Prozessen anwendbar ist. 

Die Gleichungen (4.5)—(4.9) werden aufgrund der näherungsweisen Ku- 
gelgeometrie der Erde in Kugelkoordinaten formuliert. Zur Vermeidung 
des sogenannten Polproblems erfolgt eine Reduzierung der Drängung der 
Meridiane mittels einer Rotation des Koordinatensystems. Für die Git- 
ter der (ehemals) operationellen COSMO-Modelle wird die Lage der Po- 
le dergestalt gekippt, dass der rotierte 0°-Meridian mit dem geografi- 
schen 10° O-Meridian übereinstimmt und der rotierte Äquator etwa von 
Schottland über Südschweden und das Baltikum nach Russland verläuft. 
Zudem erfolgt die Subtraktion eines horizontal homogenen (zeitlich in- 


varianten, hydrostatisch balancierten) Grundzustands, sodass anstelle des 
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Drucks p die Fluktuationen dessen um einen höhenabhängigen Referenz- 
druck p’(x,t) = p(x,t) — po(z) als prognostische Variablen dienen. Eine 
Transformation der Vertikalkoordinate in ein geländefolgendes Koordina- 
tensystem ist implementiert, um numerische Probleme in orografisch ge- 
gliederten Regionen zu umgehen. Zur numerischen Näherungslösung der 
Modellgleichungen ist eine zeitliche und räumliche Diskretisierung erfor- 
derlich. Die horizontale Anordnung der Modellvariablen erfolgt gemäß des 
Arakawa-C-Gitters, während die vertikale Anordnung routinemäßig seit 2010 
mittels einer modifizierten Version der Gal-Chen-Koordinate vorgenom- 
men wird (Gal-Chen und Somerville, 1975; Arakawa und Lamb, 1977). Im 
operationellen Betrieb von COSMO-EU und COSMO-DE findet für die 
Zeitintegration das Verfahren von Klemp und Wilhelmson (1978b) Anwen- 
dung, welches unterschiedliche Zeitschritte für langsame und schnelle Mo- 
den einer kompressiblen Strömung erlaubt. Weitere Details finden sich bei 
Doms und Baldauf (2018). 

Prozesse, die unterhalb der aufgelösten Skala ablaufen (sogenannte sub- 
skalige Prozesse), modelliert COSMO durch einen Satz von physikali- 
schen Parametrisierungen (Doms et al., 2018). Dazu gehören irreversible, 
reibungsbedingte sowie diabatische Prozesse. Beispielsweise erfolgt eine 
Parametrisierung der Turbulenz in der freien Atmosphäre, wie auch ei- 
ne für flache und hochreichende Konvektion. Deren Implementierung folgt 
dem Massenfluss-Schema nach Tiedtke (1989) oder dem erweiterten, zur- 
zeit im Integrierten Vorhersagesystem des European Centre for Medium- 
Range Weather Forecasts (ECMWF) implementierten Tiedtke-Bechtold- 
Schema (Bechtold et al., 2001). Als weitere Parametrisierungen zu nennen 
sind die der Wolkenmikrophysik, der subskaligen Bewölkung, der subskali- 
gen Orografie, von Süßwasserseen und Meereis, sowie des kurz- und langwel- 
ligen Strahlungstransfers (inklusive voller Rückkopplung mit den Wolken- 
schemata; Ritter und Geleyn, 1992). Zudem findet ein Boden- und Vegetati- 


onsmodell sowie eine Parametrisierung der Oberflächenflüsse Anwendung. 
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4.2.2 Datenassimilation fur COSMO 


Der operationelle Ablauf am DWD ist unterteilt in den Datenassimilationszy- 
klus und die Erstellung der Hauptlaufanalysen und -vorhersagen. Die Haupt- 
laufanalysen von COSMO-EU beispielsweise wurden bis zum Ende der ope- 
rationellen Verwendung am 1. Dezember 2016 nur fiir die Termine 00, 06, 
12 und 18 UTC erstellt, an die sich die Berechnung der Vorhersage anschloss. 
Assimiliert wurden dort nur solche Daten, die bis 2h 14 min nach dem Zeit- 
punkt der zu erstellenden Analyse vorlagen (Datenredaktionsschluss). Somit 
war beispielsweise eine 00 UTC-Hauptlaufanalyse gegen 2:30 UTC verfüg- 
bar. Im Datenassimilationszyklus wurden für jede volle Stunde Assimilati- 
onsanalysen in Blöcken von je drei Stunden mit einem späteren Datenredakti- 
onsschluss erstellt. Die 00 — 02 UTC-Assimilationsanalysen waren daher erst 
gegen 5:10 UTC verfügbar, jedoch gingen mehr Beobachtungen in die Assi- 
milation ein als bei der Erstellung der Hauptlaufanalysen. Dadurch erhoffte 
man sich eine Steigerung der Analysequalität. 

Zur Bereitstellung eines skalenadäquaten Anfangszustands für die 
Vorhersage wurde als Analyseverfahren die sogenannte Nudging- 
Methode (auch: Newton’sche Relaxation) angewendet (Schraff, 1996, 1997; 
Schraff und Hess, 2013). Das Nudging stellt eine kontinuierliche vier- 
dimensionale Datenassimilation dar, welche die prognostischen Mo- 
dellvariablen während der Vorwärtsintegration des Modells innerhalb 
eines vorher festgelegten Zeitfensters an die Beobachtungen heran- 
zieht (z.B. Davies und Turner, 1977; Stauffer und Seaman, 1990). Dies 
geschieht mit Hilfe eines additiven Zusatzterms in den jeweiligen Ten- 
denzgleichungen, welche somit folgende Form für eine Prognosevariable & 
aufweisen: 

ð Nobs 


so Rt) = MEt) Heng D wili EED] (410) 


i=1 
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Darin stellt ./ das reine Vorhersagemodell dar, also die Modelldynamik so- 
wie die physikalischen Parametrisierungen. c, ¢ ist der sogenannte Nudging- 
Koeffizient. Die mit diesem multiplizierte Summe auf der rechten Seite von 
Gleichung (4.10) umfasst die Differenz aller Beobachtungswerte &; in der 
Nähe des Modell-Gitterpunkts x zum Modellwert € (x;,t) am jeweiligen Be- 
obachtungsort x; zum Zeitpunkt t. Obwohl das Nudging auf direkte Beob- 
achtungen und nicht auf aus Beobachtungen abgeleitete gerasterte Beobach- 
tungsanalysen angewendet wird und die Beobachtungen in der Regel nicht 
auf Modellgitterpunkten verortet sind, wird zur Bestimmung von & (x;,f) auf- 
grund der generell mit COSMO verwendeten hohen Auflösung auf eine In- 
terpolation der Werte verzichtet (Schraff und Hess, 2013). Die Prognoseva- 
riablen &, die das Nudging modifiziert, sind der Horizontalwind u, die po- 
tentielle Temperatur @ und die relative Feuchte RH (auf allen Modellhaupt- 
flächen [Schichtmitten]) sowie der Luftdruck p (auf der untersten Modell- 
hauptfläche; Schulz und Schättler, 2014). In der Praxis ist der Beitrag des 
Nudgings in der Regel kleiner als der jeweils größte Term in der Modell- 
dynamik, d.h. das dynamische Gleichgewicht des Modells wird nicht über- 
mäßig gestört. Unter Vernachlässigung von . in Gleichung (4.10) führt das 


-l zu ei- 


Nudging mit dem üblicherweise verwendeten Wert c, ¢ = D: 1074s 
ner exponentiellen Relaxation eines Modellwerts an einen Beobachtungswert 
innerhalb von etwa einer halben Stunde. 

Im Untersuchungszeitraum fand darüber hinaus für das hochaufgelöste 
COSMO-DE (und seit dem 3. September 2014 auch für COSMO-EU) 
ein spezielles Nudging-Verfahren, das Latent Heat Nudging, Anwen- 
dung, welches hochaufgelöste Daten der aus dem Reflektivitätsfaktor Z 


abgeleiteten Regenrate R in das Modell assimiliert? (vgl. Kapitel 4.1.1; 


3 Für Bereiche außerhalb des Radarverbunds des DWD wurde hierfür während des Untersu- 
chungszeitraums auf den weite Teile Europas abdeckenden OPERA-Datensatz zurückgegrif- 
fen: https://www.eumetnet .eu/activities/observations-programme/current- 
activities/opera/. 
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Stephan et al., 2008; Baldauf et al., 2016; DWD, 2021a). Uber das Einbrin- 
gen von zusätzlichen Temperatur- und Feuchteinkrementen beeinflusst dieses 
Nudging die Modelldynamik dergestalt, dass sich der Modellniederschlag 
an die Beobachtung angleicht. Seit Marz 2017 findet fiir die Datenassi- 
milation in COSMO-DE bzw. in seinen Nachfolger COSMO-D2 das neu 
entwickelte System KENDA (Kilometer-Scale Ensemble Data Assimilation; 
Schraff et al., 2016) mit einem eingebauten LETKF (Local Ensemble 
Transform Kalman Filter; Hunt et al., 2007) Anwendung, in dem das Latent 
Heat Nudging zunächst weiterhin der Assimilation der Regenrate dient. 
Zurzeit sind Methoden in der Entwicklung, den Radarreflektivitätsfaktor Z 
sowie die Radialgeschwindigkeit mit Hilfe des Radar-Vorwärts-Operators 
EMVORADO (Efficient Modular Volume Scanning Radar Operator) 
durch KENDA direkt zu assimilieren (Zeng, 2013; Zeng etal., 2016; 
Blahak und de Lozar, 2020; DWD, 2021c). 


4.2.3 Assimilationsanalysen von COSMO-EU 


Assimilationsanalysen von COSMO-EU stehen in der Datenbank des DWD 
in stündlicher Auflösung zur Verfügung (vgl. Kapitel 4.2.1). Da ab 2016 das 
neue ICON-Europa das alte COSMO-EU im operationellen Routinebetrieb 
abgelöst hat, liegen Analysen von COSMO-EU bis einschließlich Novem- 
ber 2016 vor (GRIB2-Format). Der Datensatz ist nahezu vollständig. Ledig- 
lich vier der 26 352 verwendeten Analysedateien im Untersuchungszeitraum 
der Sommerhalbjahre 2011 — 2016 sind fehlerhaft. 

Das Modellgebiet von COSMO-EU erstreckt sich über nahezu ganz Euro- 
pa (Abbildung 4.3) mit 665 x 657 strukturiert verteilten horizontalen Git- 
terpunkten mit einer Gitterpunktsdistanz von 0,0625° (vgl. Kapitel 4.2.1). 
Vertikal sind 40 Modellhauptflächen definiert, die sich von 10 m über Grund 


bis in eine Höhe von 21,75km erstrecken. Je weiter zwei Hauptflächen von 
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25W 15W 5W 5E 15E BE 35E 45E 55E 


Abbildung 4.3: Erstreckung des Modellgebiets von COSMO-EU inklusive der Modellorogra- 
fie (m ü. NN). 


der Erdoberfläche entfernt sind, desto größer ist der Abstand zwischen ih- 
nen (Schulz und Schättler, 2014; Doms und Baldauf, 2018). Die Assimilati- 
onsanalysen von COSMO-EU liegen sowohl auf diesem Modellgitter als auch 
auf interpolierten Höhen- und Druckschichten vor. 


4.3 Methoden der Datenaufbereitung 


Das Ziel der Datenaufbereitung ist die Erstellung eines geeigneten Daten- 
satzes für den Untersuchungszeitraum der Sommerhalbjahre 2011 — 2016, 
der Lebenszyklen konvektiver Zellen sowie Informationen über die zugehö- 
rigen atmosphärischen Umgebungsbedingungen beinhaltet. Auf diesem Da- 
tensatz basieren alle weiterführenden Analysen der Zellattribute und Umge- 
bungsvariablen (Kapitel 5) sowie die Entwicklung von Vorhersageverfahren, 
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die verschiedene Zellattribute anhand der vorherrschenden Umgebungsbe- 
dingungen und der Zellhistorie als gewinnbringende Information für Now- 
casting-Verfahren abschätzen können (Kapitel 6). Erforderlich ist dafür, dass 
die Lebenszyklen der Primärzellen von KONRAD reale konvektive Entwick- 
lungen abbilden. Wie später dargelegt, ist dies für viele der abgespeicherten 
Primärzellen jedoch nicht der Fall. Daher ist nach der Zusammenstellung 
aller Lebenszyklen auf der Basis des VX-Produkts von KONRAD (Kapi- 
tel 4.3.1) eine umfangreiche Filterung der Daten nötig, um fehlerhafte Le- 
benszyklen auszusortieren (Kapitel 4.3.2). Die Umgebungsbedingungen wäh- 
rend des Auftretens der konvektiven Zellen quantifizieren verschiedene Um- 
gebungsvariablen, die auf COSMO-EU-Assimilationsanalysen basieren (Ka- 
pitel 4.3.3). Die Zusammenführung der gefilterten objektbezogenen Lebens- 
zyklen und der auf einem Gitter flächendeckend vorliegenden Umgebungsva- 
riablen zu einem kombinierten objektbezogenen Datensatz komplettiert die 
Datenaufbereitung (Kapitel 4.3.4). 


4.3.1 Erstellung zusammenhängender Lebenszyklen aus den 
Daten des Zellverfolgungsalgorithmus KONRAD 


Wie in Kapitel 4.1.2 beschrieben liegen die Daten der von KONRAD de- 
tektierten konvektiven Zellen in separaten Dateien für jeden Zeitpunkt der 
fünfminütlichen Radarmessungen vor. Somit ist eine Primärzelle bei längerer 
Lebensdauer in mehreren Dateien enthalten. Um die zeitliche Entwicklung 
der Attribute einer bestimmten Primärzelle leichter analysieren zu können, 
sollen die Informationen aus den unterschiedlichen Dateien für diese zusam- 
mengeführt werden, sodass ein numerisches Datenobjekt entsteht, welches 
den vollständigen Verlauf als zusammenhängenden Lebenszyklus enthält. 

Die Entwicklung eines Verfahrens zur Erstellung zusammenhängender Le- 
benszyklen erfolgte für einen einmonatigen Testzeitraum, um den Rechen- 
aufwand gering zu halten. Die Periode 27. Mai — 26. Juni 2016, in der un- 


gewöhnlich viele konvektive Zellen über ganz Deutschland auftraten, die 
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Tabelle 4.1: Übersicht über die in der vorliegenden Arbeit verwendeten Zellattribute aus KON- 
RAD inklusive Formelzeichen und Einheit (ZO = Zellobjekt). 


Zellattribut Zeichen Einheit 
geografische Länge eines Zentroids Az R 
geografische Breite eines Zentroids oz R 
Alter eines ZO t min 
KONRAD-interne Identifikationsnummer des ZO IDz — 
Zellfläche (= Anzahl der Zellpixel mit Z > 46 dBZ) Az km? 
Zellkernfläche (= Zellpixelanzahl mit Z > 55 dBZ) AZK km? 
Azimut der Verlagerungsrichtung des ZO az R 
Verlagerungsgeschwindigkeit des ZO CZ ms! 
geografische Länge des westlichen Rands des ZO Az.w ° 
geografische Länge des östlichen Rands des ZO ER ° 
geografische Breite des südlichen Rands des ZO zs S 
geografische Breite des nördlichen Rande des ZO ÖZ.N j 


teils heftige Regenfälle mit schweren Überschwemmungen, Hagel und so- 
gar Tornados verursachten (Piper et al., 2016), bietet dafür gute Vorausset- 
zungen, da hier eine große Anzahl von Zellen unterschiedlicher Organisati- 
onsformen vorkam. Anschließend wird dieses Verfahren auf den gesamten 
Untersuchungszeitraum angewendet. Eine Anwendung ist bei entsprechen- 
der Berücksichtigung fehlender und fehlerhafter Dateien auf jeden beliebigen 
Zeitraum möglich, für den VX-Dateien vorhanden sind. 

Im ersten Schritt werden die Daten aus den VX-Dateien so weit reduziert, 
dass aus jeder Datei nur die Informationen über die Attribute aller zum ak- 
tuellen Zeitpunkt registrierten Primärzellen sowie die Informationen über die 
Radarverfügbarkeit ausgeschnitten und in ASCI-Tabellen zwischengespei- 


chert werden. Dabei können die verschiedenen gewünschten Zellattribute aus 
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Tabelle 4.2: Übersicht über vorhandene Radar- und Zeitinformationen, die anhand der 
VX-Dateien von KONRAD bestimmt werden können. 


Beschreibung Abkürzung 


Indikator, welche Radardaten 5 min früher 
nicht verfügbar sind RTM 


Indikator, welche Radardaten zum jeweiligen 


Zeitpunkt nicht verfügbar sind RTN 
Indikator, welche Radardaten 5 min später 

nicht verfügbar sind RTP 
Datums- und Uhrzeitangabe DAT 


Tabelle 4.1 flexibel übertragen und mit den in Tabelle 4.2 aufgeführten Radar- 
und Zeitinformationen ergänzt werden. Im Folgenden dient der Begriff Zell- 
objekt als Bezeichnung für von KONRAD detektierte Primärzellen und er- 
möglicht die sprachliche Abgrenzung gegenüber beobachteten, realen kon- 
vektiven Zellen. 

Für jeden Tag im Untersuchungszeitraum wird damit ein Datensatz erstellt, 
der alle Informationen über alle an diesem Tag registrierten Zellobjekte 
enthält. Eine Dimension steht für die Identifizierung des Zellobjekts, eine 
zweite Dimension spannt sich über alle Zeitpunkte der Detektionen auf, eine 
dritte Dimension gibt Raum für alle in den Tabellen 4.1 und 4.2 aufgelisteten 
Zellattribute und Informationen. Damit lässt sich einfach und schnell auf alle 
Attribute eines bestimmten Zellobjekts zu einem beliebigen Zeitpunkt des 
Lebenszyklus durch Indizierung zugreifen. Zellen, die sowohl vor als auch 
nach Mitternacht von KONRAD detektiert wurden, liegen mit ihrem vollen 
Lebenszyklus als Zellobjekte in der Datei des ersten Tags. 
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4.3.2 Filterung der Daten des Zellverfolgungsalgorithmus 
KONRAD 


Trotz der ausgereiften Methodik zur Detektion und Verfolgung konvektiver 
Zellen in KONRAD treten fiir das Zellverfolgungsverfahren einige Schwie- 
rigkeiten auf. Diese resultieren sowohl aus der Dynamik der konvektiven Zel- 
len als auch aus mathematisch-technischen Herausforderungen. Insbesondere 
ergeben sich neben fehlerhaften Dateien weitere zu beriicksichtigende Pro- 


blempunkte bei der Qualitätskontrolle der erstellten Lebenszyklen: 


(a) Der Start- bzw. Endpunkt der Zelle kann außerhalb des durch den Radar- 
verbund abgedeckten Gebiets liegen. 


(b) Zellen können Gebiete überqueren, für die zum entsprechenden Zeit- 


punkt keine Radarprodukte vorhanden sind. 


(c) Die Beschreibung eines Lebenszyklus im eigentlichen Sinn ist für Zell- 
objekte mit einer sehr kurzen Lebensdauer von weniger als etwa 20 min 


problematisch. 


(d) Die Nomenklaturregeln von KONRAD, d.h. die Vorschriften für die Zu- 
weisung der Identifikationsnummer /Dz zu den Zellobjekten, müssen 


beachtet werden. 


(e) Zuordnungsprobleme entstehen durch das Verschmelzen und Teilen von 
Zellen (Merging bzw. Splitting). Dabei ist physikalisch bereits nicht 
klar, wie der Lebenszyklus solcher Zellen zu definieren ist. Zudem 
kann die Handhabung der Zellobjekte durch den Algorithmus von 
KONRAD in solchen Fällen zu Problemen führen. 


In der Atmosphäre kommt es je nach der Organisationsform der Konvekti- 
on häufig zu den in (e) erwähnten Verschmelzungen und Teilungen von Zel- 
len (vgl. Kapitel 2.2). Manchmal entstehen aber auch ganz in der Nähe von 


bereits existierenden Zellen weitere Zellen, manchmal dissipiert eine Zelle in 
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der Nahe von anderen (vgl. Abbildung 4.2 zur Veranschaulichung von KON- 
RAD-Primärzellen in einer Gewitterlinie). Diese Dynamik mit einem Zellver- 
folgungsalgorithmus zu erfassen, stellt Entwickler*innen generell vor viele 
Herausforderungen. Um eine möglichst realitätsnahe Stichprobe von konvek- 
tiven Zellen zu erhalten, findet eine Beschränkung auf isolierte Zellen, also 
auf Einzel- und Superzellen statt. Dadurch kann eine adäquate Filterung des 
Datensatzes den Problempunkt (e) größtenteils umgehen. 

Für einige Testfälle, in denen Radarbilder auf Teilungen und/oder Verschmel- 
zungen von Zellen hindeuten, wird die in (d) erwähnte entsprechende Zu- 
weisung der Identifikationsnummern durch KONRAD genauer untersucht. In 
allen Fällen, in denen Multizellen oder ein MCS auftreten (vgl. Kapitel 2.2.2 
und 2.2.4), kommen durch die Zuweisungen unrealistische Verläufe von Zell- 
attributen zustande, die zur gleichen /Dz gehören. Wapler (2021) beschreibt, 
dass im Fall einer Zellteilung entweder beide neu gebildeten Zellen eine neue 
IDz erhalten, KONRAD also beide als neu gebildete Zellobjekte behandelt, 
oder eine der beiden neuen Zellen die /Dz des ursprünglichen Zellobjekts 
behält, während die andere eine neue /Dz zugewiesen bekommt. Beides führt 
dazu, dass keines der Zellobjekte korrekt einen kompletten Lebenszyklus (mit 
einer entsprechenden Lebensdauer) widerspiegelt. Im ersten Fall können die 
beiden neuen Zellobjekte zum Zeitpunkt der (scheinbaren) ersten Detektion 
(t = 2 min; vgl. Kapitel 4.1.2), die jedoch möglicherweise nicht mehr dem 
Cumulusstadium der Zellen zuzuschreiben ist, bereits eine große Zellfläche 
Az aufweisen (vgl. Kapitel 2.2.1). Im zweiten Fall kann für das Zellobjekt, 
das die ursprüngliche /Dz behält, eine starke Abnahme der Zellfläche Az auf- 
treten, sodass es so aussieht, als sei die entsprechende Zelle im Dissipations- 
stadium. Ähnliche Kausalketten lassen sich auch bei einer Verschmelzung 
zweier Zellen aufstellen. Daher ist eine Bereinigung des Datensatzes erfor- 
derlich. 

Um all diese Aspekte zu berücksichtigen, erfolgt diese Bereinigung mit Hilfe 
von mehreren, neu entwickelten objektiven Filtermethoden in einer tagewei- 


sen und zugleich objektweisen Vorgehensweise. Für jedes Zellobjekt läuft der 
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Algorithmus konsekutiv durch alle Detektionszeitpunkte, wobei die Verlage- 
rungsrichtung az und -geschwindigkeit cz der Zellen dabei explizit aus den 
Veränderungen von Az und dz berechnet wird. Die Entwicklung der verschie- 
denen Filter und entsprechende Sensitivitätsuntersuchungen erfolgten auf der 
Basis des Testzeitraums 27. Mai — 26. Juni 2016. Im Anschluss wurde der 
gesamte Datensatz des Untersuchungszeitraums 2011 — 2016 der entwickel- 


ten Filterung unterzogen. 


Prä- und Postfilterung 


Da die Prozessierung allgemein für jede beliebige Zeitspanne mit frei wählba- 
ren Start- und Endzeitpunkten anwendbar sein soll, dienen die Prä- und Post- 
filterung lediglich dazu, mit Hilfe der Datums- und Uhrzeitangabe DAT (Ta- 
belle 4.2) diejenigen Zellobjekte auszusortieren, die zum Start- bzw. Endzeit- 


punkt der gewählten Zeitspanne von KONRAD registriert wurden. 


Filterung hinsichtlich der Radarabdeckung 


KONRAD kann den vollständigen Lebenszyklus einer konvektiven Zelle nur 
abbilden, wenn die Zelle zu jedem Zeitpunkt von einem Radar erfasst wird. 
Probleme entstehen, wenn innerhalb des Untersuchungsgebiets Radardaten 
fehlen (Problem (b)). Daher werden zunächst aussortiert: 1) Alle Zellobjekte, 
die KONRAD in einem Gebiet zum ersten Mal registriert, von dem 5 min 
zuvor keine Daten vorliegen. 2) Alle Zellobjekte, die KONRAD in einem 
Gebiet zum letzten Mal registriert, von dem 5 min danach keine Daten mehr 
vorliegen. 3) Alle Zellobjekte, die in ein (dauerhaft) datenloses Gebiet ziehen 
bzw. aus einem solchen hinausziehen. Zur numerischen Umsetzung sind die 
in Tabelle 4.2 aufgelisteten Radarinformationen RTM, RTN und RTP neben 
der Position der Zentroide (Az, z) unabdingbar. 
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Bei der Durchführung dieser Filterung helfen Gebietsmasken (kurz: Masken), 
die Regionen überspannen, welche im Fall fehlender Daten bestimmter Ra- 
dare von keinem Radar abgedeckt werden. Solche Masken sind für acht ver- 
schiedene Konstellationen von operationell arbeitenden Radaren notwendig, 
die im Untersuchungszeitraum 2011 — 2016 für bestimmte Zeiträume den Ra- 
darverbund bildeten* (vgl. Kapitel 4.1.1). Die Masken haben eine Auflösung 
von AA = Ad = 0,04 °, meridional also von etwa Ay ~ 4,5 km und zonal brei- 
tengradabhängig zwischen Ax ~ 2,5 und 3,1 km. Um eine schmale Puffer- 
zone um die vom DWD angegebene Reichweite der Einzelradarmessungen 
zu generieren, wird hier als Reichweite ein Radius von Rradar = 145 km an- 
genommen (vgl. Kapitel 4.1.1). In Abbildung 4.4 sind beispielhaft zum ei- 
nen die Maske für einen Datenausfall des Radars Neuheilenbach in der Ei- 
fel (orangefarbene und rote Kreuze) und zum anderen die Maske der Rand- 
punkte des Radarverbunds (grüne Kreuze) dargestellt. Die Unterscheidung in 
Punkte der Maske eines Gebiets (orange) und Randpunkte dieser Maske (rot) 
beschleunigt den Algorithmus. Um bei der oben erwähnten Auflösung ge- 
nügend Randpunkte zu haben, ist eine Breite des Rande von 9km ~ 2Ay 
sinnvoll. Im Fall, dass vom Radar am Standort Neuheilenbach keine Daten 
verfügbar sind, ist das rot-orange eingefärbte Gebiet (Teile von Luxemburg, 
Lothringen, des Saarlands und weitere) nicht abgedeckt. 

Die Filterkriterien sind derart gestaltet, dass ein Zellobjekt genau dann aus- 
sortiert wird, wenn sich sein Zentroid zu nahe an einem Punkt der für den 
jeweiligen Zeitpunkt (bzw. 5min früher oder später) gültigen Maske be- 
findet, deren Auswahl jeweils über DAT und RTN (bzw. RTM oder RTP) 
erfolgt (im Folgenden als Teilfilter 1 — 3 bezeichnet). Ausgehend von ei- 


ner maximalen realistischen Verlagerungsgeschwindigkeit einer Zelle von 


4 Die Zeiträume, in denen Ausfallsicherungsradare bestimmte Radare ersetzten, behandelt die 
Filterung aus Gründen der Komplexität so, als ob die regulären Radare an ihren jeweiligen 
Standorten, die nur unweit der Standorte der Ausfallsicherungsradare liegen, verwendet wor- 
den wären. 
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"Ca 


Abbildung 4.4: Zur Illustration der in mehreren Filtern verwendeten Gebietsmasken. Die 
Standorte der 2011 operationellen Radare des DWD-Radarverbunds sind mit blauen Dreiecken, 
deren radiale Reichweiten (hier: 145 km) mit blauen Kreisen gekennzeichnet. Siehe Fließtext für 
eine ausführliche Erläuterung der farbigen Markierungen. 


ËZ mar = 150kmh7! gilt als guter Wert für den minimal zugelassenen 
Abstand eines Zellobjekts zu einem Punkt bzw. Randpunkt einer Maske 
dkrit Maske = E ag h+max(Ax, Ay) + 17km. Dabei wird verwendet, dass 


die VX-Daten in fünfminütlicher Auflösung vorliegen. Der Wert von CZ max 
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wird aus dem Grund etwas höher als im Zellverfolgungsverfahren von KON- 
RAD angesetzt (CZ max = 110kmh~! plus mögliche Verlagerung des Zentro- 
ids innerhalb einer Primärzelle; vgl. Kapitel 4.1.2), da in mesoskaligen Fron- 
ten eingelagerte konvektive Zellen durchaus mit sehr hohen Geschwindigkei- 
ten ziehen können, wie beispielsweise während des Orkans Kyrill am 18. Ja- 
nuar 2007 (Fink et al., 2009). Die Umsetzung dieser Filterung erfolgt, indem 
der Algorithmus in einem quasi-rechteckigen Umfeld mit einer Kantenlänge 
von je 0,5° um das Zentroid eines Zellobjekts nach den Punkten bzw. Rand- 
punkten der momentan relevanten Maske sucht. Im Fall eines Treffers berech- 
net er dann im zweiten Schritt erst die einzelnen Distanzen in Kugeloberflä- 
chengeometrie und vergleicht diese anschließend mit dem minimal zugelas- 
senen Abstand dkrit Maske- Ist eine dieser Distanzen kleiner als dkrit Maske, SO 
befindet sich das betrachtete Zellobjekt zu nahe an einem Punkt oder Rand- 
punkt der Maske und wird daher aussortiert. 

Solange lediglich von einem oder zwei Radaren zu einem Zeitpunkt keine 
Daten vorliegen, sind die beschriebenen Filter wirksam. Sobald dies für drei 
oder mehr Radare der Fall ist, sortiert die Filterung alle zu diesem Zeitpunkt 
vorhandenen Zellobjekte aus, da der Rechenaufwand für die Kombination 
der Gebietsmasken stark mit der Anzahl von Radaren mit fehlenden Daten 
steigt (Teilfilter 4). Während der Sommerhalbjahre 2011 — 2016 waren zu 
etwa 11,6 % aller Zeitpunkte Daten von drei oder mehr Radaren gleichzeitig 
nicht verfügbar. Die Filterung sortiert in diesem Zuge auch Zellobjekte aus, 
die KONRAD zu einem Zeitpunkt 5 min früher oder später gegenüber einem 
Zeitpunkt registrierte, zu dem keine oder eine fehlerhafte VX-Datei vorliegt. 


Filterung am Rand des Verbundgebiets 


Wie eingangs dieses Unterkapitels in der Problemstellung (a) dargelegt ist die 
Berücksichtigung aller Zellen, die in das Gebiet des Radarverbunds hinein- 
oder aus ihm hinausziehen, zur Analyse von vollständigen Lebenszyklen 


ebenfalls nicht geeignet. Dazu setzt auch dieser Filter unter Verwendung von 
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Az und d ein rechteckiges Umfeld um die Zentroide der Zellobjekte ein, um 
nach Punkten in der Maske der Randpunkte des Radarverbunds zu suchen, 
die innerhalb dieses Umfelds liegen. Im Fall eines oder mehrerer Treffer 
berechnet der Filter im zweiten Schritt wieder die jeweiligen Distanzen der 
Position des Zentroids von den Randpunkten und vergleicht diese mit dem 
minimal zugelassenen Abstand dkrit Maske. Ist eine dieser Distanzen kleiner 
als dkrit Maske, so befindet sich das betrachtete Zellobjekt zu nahe an einem 


der Randpunkte des Radarverbunds und wird daher aussortiert. 


Filterung von falschen Zuweisungen 


Das in Kapitel 4.3.1 beschriebene Verfahren setzte die Lebenszyklen der von 
KONRAD registrierten Zellobjekte für jeden Tag anhand ihrer Identifikati- 
onsnummer /Dz zusammen, da jede /Dz während einer konvektiven Wet- 
terlage nur einmal vergeben wird. Es stellte sich jedoch heraus, dass zwei 
gänzlich unabhängige Zellobjekte in den Daten an einem Tag vereinzelt die- 
selbe Identifikationsnummer /Dz tragen. Sehr selten hat sogar ein Zellobjekt 
zu einem Zeitpunkt eine bestimmte /Dz und 5 min später ein anderes Zell- 
objekt, das teils mehrere 100 km entfernt ist, dieselbe /Dz. In diesen Fällen 
setzen sich folglich die erstellten Lebenszyklen aus zwei verschiedenen Zell- 
objekten zusammen. Anhand des genauen Detektionszeitpunkts DAT und der 
Information über die Position der Zentroide (Az, ®z) lassen sich solche Fehl- 


zuweisungen herausfiltern. 


Filterung kurzer Lebenszyklen 


Zellobjekte, die KONRAD nur einmal registrierte, werden unter Verwendung 
des Alters ¢ aussortiert. Dieses Vorgehen lässt sich, wie in der Problemstel- 
lung (c) angedeutet wurde, prinzipiell auf Zellen erweitern, die nur wenige 
Male detektiert wurden. Dabei stellt sich die Frage, bei welcher Lebensdauer 
genau die Grenze zu ziehen ist. Da KONRAD Zellen nur detektiert, wenn auf 


einer zusammenhängenden Fläche von mindestens 15 km? ein Schwellenwert 
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von Z = 46 dBZ erreicht bzw. überschritten wird, können Teile des Cumulus- 
und des Dissipationsstadiums einer konvektiven Zelle nicht abgebildet wer- 
den (vgl. Kapitel 4.1.2). Einer konvektiven Zelle lässt sich daher von der ers- 
ten Wolkenbildung bis zur Dissipation bereits eine reale Lebensdauer von 
mindestens etwa 30 — 45 min attestieren, auch wenn sie nur zweimal in Folge 
das KONRAD-Kriterium überschreitet. Dies lässt sich insbesondere für nicht 
allzu starke Einzelzellen häufig beobachten (vgl. Kapitel 2.2.1). Aus diesem 


Grund behält der Filter alle Zellobjekte mit zwei oder mehr Detektionen bei. 


Clusterfilter 


Der Clusterfilter soll den Datensatz von Zellobjekten bereinigen, die poten- 
tiell aufgrund von Verschmelzungen oder Teilungen von Zellen keinen ad- 
äquaten Lebenszyklus vorweisen (s. o.). Er setzt die Forderung um, dass alle 
Zellobjekte, die zum ersten bzw. letzten Zeitpunkt ihres Lebenszyklus zu na- 
he an einem anderen Zellobjekt (einer Nachbarzelle, kurz: einem Nachbarn) 
sind, aussortiert werden müssen (Teilkriterium A). Auch der Nachbar selbst 
muss aussortiert werden, da er potentiell aus einer Zellteilung mit dem ande- 
ren Objekt heraus entstanden ist oder mit dem Zellobjekt im nächsten Zeit- 
schritt als ein gemeinsames Objekt erscheint (Teilkriterium B). Jedes Zell- 
objekt kann gleichzeitig mehrere Nachbarn haben und selber für mehrere 
Objekte ein Nachbar sein. Nicht jeder identifizierte Nachbar ist jedoch au- 
tomatisch mit einer realen Verschmelzung oder Aufteilung in Verbindung zu 
bringen. Der Clusterfilter bietet daher keine optimale Lösung für die in (e) 
formulierte Problemstellung. Es ist jedoch eine valide Annahme, dass dieser 
Filter den Datensatz von Zellobjekten bereinigt, deren zugehörige Attribute 
unrealistische Verläufe aufweisen, und ihn damit auf eine Teilrepräsentation 
des konvektiven Spektrums beschränkt. 

Auch dieser Filter sucht in einem rechteckigen Umfeld der Kantenlänge 0,5° 
um das Zentroid unter Verwendung von Az und d: sowie von DAT nach 


potentiellen Nachbarn. Finden sich weitere Zellobjekte im Umfeld, berechnet 
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Abbildung 4.5: Sensitivitätsuntersuchung zum Clusterfilter im Testzeitraum 27. Mai — 26. Ju- 
ni 2016. Auf der Abszisse ist der minimal erlaubte Abstand zwischen zwei Zellobjekten 
dkrit Nachbar aufgetragen. Die Ordinate gibt an, wie stark sich die Anzahl bestimmter Zellobjekte 
aufsteigend vom einen zum nächsten Abszissenwert (Intervall: 1 km) relativ ändert. 


der Filter unter Verwendung des von Az w, As o, ds e und z y aufgespannten, 
die Zellfläche umrahmenden Rechtecks die jeweiligen Distanzen zwischen 
den nächstgelegenen Rändern der Zellobjekte (vgl. Kapitel 4.1.2). Ist eine 
dieser Distanzen kleiner als der minimal erlaubte Abstand dkrit Nachbar (S. U-), 
so befindet sich das betrachtete Zellobjekt zu nahe an einem der anderen 
Objekte, weshalb beide aussortiert werden. 

Eine Sensitivitätsuntersuchung dient der Bestimmung eines geeigneten 
Schwellenwerts für den minimal erlaubten Abstand dra Nachbar, den die Rän- 
der zweier Zellobjekte zu einem relevanten Zeitpunkt haben dürfen (Ab- 
bildung 4.5). Dazu durchlaufen die Zellobjekte aus dem Testzeitraum 
27. Mai — 26. Juni 2016 die Prä- und Postfilterung, die Filterung hinsichtlich 
der Radarabdeckung, die Filterung am Rand des Verbundgebiets, die Filte- 
rung von falschen Zuweisungen sowie diejenige kurzer Zelldetektionen und 


den Clusterfilter konsekutiv durch alle Detektionszeitpunkte. Die Anzahl der 
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nicht aussortierten Objekte (griine Linie in Abbildung 4.5), sinkt wie erwar- 
tet mit steigenden Werten von dkrit Nachbar. Die Abnahme geschieht allerdings 
immer langsamer. Umgekehrt nimmt die Anzahl der durch den Clusterfil- 
ter gefilterten Objekte (schwarze Linie) mit steigendem dkrit Nachbar ZU. Ab 
dkrit Nachbar © 4 — 5 km ist die Zunahme deutlich geringer. Daher ist der Kom- 
promiss dkrit Nachbar = 3 km als Filterparameter eine vertretbare Wahl, um 
möglichst viele Fälle von potentiellen Verschmelzungen und Teilungen kon- 
vektiver Zellen zu eliminieren und gleichzeitig nicht zu viele Fälle der Neu- 
bildung oder Dissipation einer Zelle in der näheren Umgebung von bereits 
existierenden Zellen zu unterdrücken. Die positive Änderungsrate aller durch 
den Clusterfilter aussortierten Zellobjekte für größere Werte von dkrit Nachbar 
und die langsame asymptotische Annäherung der Kurve an die Null ist ein 
Indiz dafür, dass solche Neubildungen oder Dissipationen in der Umgebung 


anderer Zellen durchaus auftreten. 


Filter für die Zellfläche und die Verlagerungsrichtung 


Als Ergänzung zum Clusterfilter dienen Filter für die Zellflache und die Ver- 
lagerungsrichtung dazu, unrealistische Entwicklungen dieser Zellattribute zu 
identifizieren, welche auf falsche Zuweisungen der Zellobjekte hindeuten. 
Diese fußen auf dem allgemeinen Wissen über den Lebenszyklus konvek- 
tiver Zellen (Kapitel 2.2) sowie einer genaueren Analyse der Entwicklungen 
einiger prominenter Fallbeispiele von starken konvektiven Ereignissen (nicht 
gezeigt). 

Der erste dieser Filter sortiert alle Zellobjekte aus, für die zum Zeitpunkt der 
ersten oder letzten Detektion Az Werte von mehr als Az kri = 40 km? besitzt. 
Dadurch werden Zellen aussortiert, die potentiell vor der ersten Detektion 
bzw. nach der letzten Detektion durch KONRAD in der Realität (bereits) eine 
große Ausdehnung hatten, durch KONRAD aufgrund einer unbekannten Ur- 


sache jedoch nicht erkannt wurden. Des Weiteren ist binnen eines Zeitschritts 
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von 5 min eine maximale Anderung der Zellfläche von 50 km?, d.h. 


(=) 


erlaubt. So sollen als unrealistisch einzustufende Sprünge in der Entwicklung 


= 10km? min“! (4.11) 


krit 


der Zellfläche innerhalb des Lebenszyklus der Zellobjekte erkannt werden. 
Der zweite Filter sortiert alle Zellobjekte aus, deren Verlagerung des Zentro- 
ids dz für mindestens einen Zeitschritt von 5 min eine Richtungsänderung 
aufweist, die größer als ein Schwellenwert GG Gu ist. Der Filter glättet zu- 
vor dz über drei Zeitpunkte, um den Einfluss der internen Verlagerung des 
Zentroids bezüglich des Zellobjekts zu reduzieren (vgl. Kapitel 4.1.2). Der 
Filter findet nur Anwendung, wenn sich das Zentroid innerhalb der letz- 
ten 5min um eine bestimmte Strecke verlagert hat. Der Grund dafür ist, 
dass (quasi-)stationäre Zellen große Änderungen der schwer festzulegenden 
Verlagerungsrichtung aufweisen können, dies allerdings nur auf kurzer Di- 
stanz. Eine Sensitivitätsuntersuchung für den Testzeitraum zeigt, dass ana- 
log zur Clusterfilterung die Wahl der Schwellenwerte nur einen Kompro- 
miss zwischen der Filterung realistischer und unrealistischer Entwicklungen 
darstellen kann, da es nicht möglich ist, alle einzelnen Zellobjekte im De- 
tail zu überprüfen (Abbildung 4.6). In dieser Untersuchung werden diesel- 
ben Filter wie in Abbildung 4.5 verwendet (der Clusterfilter entsprechend 
mit dkrit Nachbar = 5 km) und der Filter für die Verlagerungsrichtung mit ver- 
schiedenen Kombinationen der Schwellenwerte hinzugefügt. In die Festle- 
gung von Les ton, Z krit) auf die Werte (12kmh!,30°) als am besten ge- 
eignete Kombination fließt das Wissen über die Auflösung der Radarbil- 
der sowie über die Änderung der Verlagerungsrichtung konvektiver Syste- 
me ein, welche sogar bei Superzellen, die bisweilen gekrümmte Zugbah- 
nen aufweisen können, in der Regel deutlich unter 30° innerhalb von 5 min 
liegt (z. B. Kunz et al., 2018). 
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Abbildung 4.6: Ergebnis der Sensitivitätsuntersuchung zum Filter für die Verlagerungsrichtung 
fiir den Testzeitraum 27. Mai — 26. Juni 2016. Auf der Abszisse ist die zur Anwendung des 
Filters minimal notwendige Verlagerungsgeschwindigkeit cz kri: aufgetragen. Die Ordinate gibt 
die innerhalb eines Zeitschritts von 5 min maximal erlaubte Änderung der geglätteten Verlage- 
rungsrichtung Oz kri an. Die farblich unterlegten Zahlen stehen für den Anteil an Zellobjekten, 
die der Filter für die Verlagerungsrichtung unter Verwendung unterschiedlicher Schwellenwerte 
zusätzlich aussortiert. 


Gefilterter Datensatz 


Nach der Anwendung aller oben beschriebenen Filter ergibt sich ein stark 
reduzierter, aber sinnvoller Datensatz. Für die Sommerhalbjahre 2011 — 2016 
werden von ursprünglich 165 572 Zellobjekten allein 62 009 Zellobjekte, die 
nur einmal von KONRAD registriert wurden, aufgrund einer zu kurzen Le- 
bensdauer aussortiert (37,5 %). Von den verbleibenden Objekten werden wei- 
tere 65010 (39,3%) durch die übrigen Filter aussortiert, sodass schließlich 
noch 38553 Objekte übrig bleiben (23,3 %). 
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Abbildung 4.7: Übersicht über die Anteile von Zellobjekten, die durch verschiedene, in Rei- 
he geschaltete Filterkriterien aussortiert werden, für (a) die Sommerhalbjahre 2011 — 2016 so- 
wie (b) den Testzeitraum 27. Mai — 26. Juni 2016. Zuvor wurden bereits die Zellobjekte aussor- 
tiert, die KONRAD nur einmal registrierte. 


Der größte Anteil an diesen 38553 gefilterten Zellobjekten ist auf den 
Clusterfilter zurückzuführen (56,5 %; Abbildung 4.7a). Im Testzeitraum 
27. Mai — 26. Juni 2016, der zur Filterentwicklung diente, liegt er sogar 
bei 67,4 % (Abbildung 4.7b). In diesem Zeitraum war die Verfügbarkeit der 
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Radardaten deutlich besser, sodass nur 3,4% der Objekte aufgrund fehlen- 
der Daten von drei oder mehr Radaren (Teilfilter 4 der Filterung hinsicht- 
lich der Radarabdeckung) aussortiert werden. Dieser Filter hat im Zeitraum 
2011—2016 hingegen einen Anteil von ca. 20,5 %. Der hohe Anteil des Clust- 
erfilters kann zumindest als Indiz für das häufige Auftreten von Multizellen, 
MCS oder Gewitterlinien in Deutschland angesehen werden. 

Von den restlichen Filtern tragen der Filter für die Verlagerungsrich- 
tung (6,4 %), die Filterung am Rand des Verbundgebiets (6,2%) sowie der 
Filter für die Zellfläche (5,2 %) zur Aussortierung von Zellobjekten am meis- 
ten bei. Auf die Filterung von Fehlzuweisungen sind 3,6 % und auf die Teilfil- 
ter 1 —3 der Filterung hinsichtlich der Radarabdeckung (zusammengefasst) 
1,7% der aussortierten Zellobjekte zurückzuführen. Es sei angemerkt, dass 
die Filter innerhalb der Detektions-Schleife in Reihe geschaltet sind. Daher 
ist es möglich, dass Zellobjekte, die aufgrund eines bestimmten Filters aus- 
sortiert wurden, noch durch einen anderen Filter aussortiert worden wären, 
wenn es ersteren nicht gäbe. So sind beispielsweise neben dem Anteil des 
Clusterfilters die Anteile des Filters für die Zellfläche und des Filters für die 
Verlagerungsrichtung im gesamten Zeitraum kleiner als im Testzeitraum, da 
mehr Zellobjekte schon vorher aufgrund der Filterung hinsichtlich der Radar- 
abdeckung aussortiert wurden. Die erwähnten Anteile sind folglich nicht als 
isolierte Einzelbeiträge der Filter zu verstehen, sondern stellen den Einfluss 


der Filter in Kombination dar. 


4.3.3 Berechnung von Umgebungsvariablen aus den 
COSMO-Modelldaten 


Die Assimilationsanalysen von COSMO-EU (vgl. Kapitel 4.2.2 und 4.2.3) 
beinhalten eine Vielzahl von atmosphärischen Variablen. Beispielsweise sind 
einzelne, für das Nowcasting konvektiver Zellen interessante Umgebungsva- 
riablen abgespeichert, deren Berechnung in den Modulen der Datennach- 


behandlung (Postprocessing) von COSMO bereits implementiert ist, wie 
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z.B. die konvektiv verfügbare potentielle Energie (ML-CAPE), der Show- 
alter Index (SD), der vertikal integrierte Wasserdampfgehalt IWV oder die 
bodennahe Feuchteflusskonvergenz (vgl. Kapitel 2.1.2, 2.4 und Anhang A). 
Des Weiteren ist es möglich, anhand der Analysedateien die stündliche Ge- 
samtniederschlagssumme zu berechnen. 

Viele interessante Umgebungsvariablen wurden bislang jedoch nicht in die 
Datennachbereitung von COSMO eingearbeitet und sind daher nicht in den 
Assimilationsanalysen verfügbar. Die Analysedateien können jedoch zur In- 
itialisierung des COSMO-Modells verwendet werden. Außerdem ist es mög- 
lich, die Module der Datennachbehandlung um Routinen zur Berechnung 
weiterer Umgebungsvariablen zu ergänzen. Dies erlaubt es, nach der Initiali- 
sierung von COSMO mittels der Analysedateien die erweiterten Module der 
Datennachbehandlung dazu zu nutzen, weitere Umgebungsvariablen aus den 
Modellvariablen zum Initialisierungszeitpunkt zu berechnen? (Tabelle 4.3). 
Zum bereits implementierten Aufstieg von ML-Luftpaketen wird mit ei- 
ner ähnlichen Methodik die Berechnung für MU-Luftpakete hinzuge- 
fügt (vgl. Kapitel 2.1.2). Zur Berechnung des ML-HKN wird auf die ana- 
lytische Formel nach Romps (2017) zurückgegriffen. Für mehrere der dy- 
namischen und thermodynamischen Variablen in Tabelle 4.3 werden Be- 
rechnungen für verschiedene Höhenschichten bzw. -intervalle vorgenommen 
(z.B. für die SRH, die Lapse Rate und den mittleren Horizontalwind). Die 
Berechnung der Lapse Rate wird beispielsweise unter anderem aus der Tem- 
peraturdifferenz zwischen 0 und 1500 m über Grund oder zwischen dem 800 
und 600 hPa Druckniveau durch lineare Interpolation auf einem vertikal äqui- 
distanten Hilfsgitter realisiert. Dieses Hilfsgitter findet unter anderem für die 
Berechnung der SRH Anwendung, die zur Bestimmung der geschätzten Ver- 
lagerungsgeschwindigkeit der Zellen den zwischen 0 und 6km vertikal ge- 
mittelten Horizontalwind benötigt (vgl. Kapitel 2.2.3). 


5 Für die vorliegende Konfiguration von COSMO ist eine Parallelisierung mittels 27 x 18 MPI- 
Prozessoren empfehlenswert. 
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Die Ausgabe der 3D-Variablen (z. B. pseudopotentielle Temperatur 0ps, Ver- 
tikalgeschwindigkeit @) erfolgt anschließend als Viel-Flächen-Felder auf 
16 Druckniveaus über das gesamte Modellgebiet von COSMO-EU, die 
der 2D-Variablen als Ein-Flächen-Feld (DWD-interne Bezeichnungen für 
2D/3D-Feldstrukturen, GRIB2-Format; z. B. Schulz und Schättler, 2014). Ei- 
ne Glättung der Felder über 9 x 9 horizontale Gitterpunkte reduziert lokale 
scharfe Gradienten der Umgebungsvariablen. Der so generierte umfangreiche 
Datensatz ist somit auch für zukünftige wissenschaftliche Studien, die ganz 
Europa betreffen, sehr nützlich®. 

Durch die Nachberechnung der weiteren Umgebungsvariablen für die Som- 
merhalbjahre 2011 — 2016 stehen insgesamt 83 Variablen in stündlicher Auf- 
lösung zur Verfügung. Von einer Erhöhung der stündlichen Auflösung wur- 
de aufgrund eines größeren Zeit- und Rechenaufwands sowie eines zu ho- 
hen anfallenden Speicheraufwands abgesehen. Ohnehin ist die zeitliche und 
räumliche Verfügbarkeit einer so großen Anzahl von Umgebungsvariablen im 
Vergleich zu den meisten der weltweit bislang durchgeführten Studien bereits 
sehr hoch. Viele Studien der vergangenen Jahre aus Europa und den USA, die 
Gewitter-, Hagel- oder ähnliche konvektive Ereignisse anhand verschiedener 
Konvektionsparameter und Indizes beschreiben, basieren entweder auf grob 
aufgelösten Reanalysedaten (z.B. Kaltenböck et al., 2009; Brooks, 2009; 
Ukkonen et al., 2017; Westermayer et al., 2017) oder Radiosondenaufstie- 
gen (z.B. Kunz, 2007; Mohr und Kunz, 2013; Púčik et al., 2015). Die COS- 
MO-EU-Daten mit einer zeitlichen Auflösung von 1h und einer horizon- 
talen Auflösung von ca. 7km sind damit eine sehr gute Datengrundla- 
ge (vgl. Kapitel 4.2.1; Miller und Mote, 2018). 


6 Gleichzeitig zu der Berechnung der Umgebungsvariablen im COSMO-EU-Setup erfolgte eine 
analoge Berechnung der Variablen für die Sommerhalbjahre 2011 — 2017 im COSMO-DE- 
Setup (vgl. Kapitel 4.2.1), welche ebenfalls in zukünftigen Untersuchungen Verwendung 
finden können. 
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Die Uberpriifung der Implementierung der neuen Umgebungsvariablen er- 
folgte zum einen durch einen umfangreichen Vergleich der berechneten Wer- 
te für ausgewählte Zeitpunkte mit Werten, die aus Daten von Radiosonden- 
aufstiegen berechnet wurden. Zum anderen konnte für einige Variablen ein 
Vergleich der berechneten Felder mit verschiedenen Literaturquellen oder 
frei zugänglichen Reanalysekarten vorgenommen werden. Zur Veranschau- 
lichung einiger neu berechneter Umgebungsvariablen ist in Anhang D ein 
synoptisches Fallbeispiel, der 28. Juli 2013, betrachtet (Abbildungen D.1 
und D.2). 


4.3.4 Zusammenführung der Zellverfolgungs- und Modelldaten 


Nach der erfolgreichen Implementierung und zeitaufwändigen Berech- 
nung der weiteren konvektionsrelevanten Umgebungsvariablen mittels COS- 
MO-EU werden diese mit den aus KONRAD abgeleiteten und gefilterten Le- 
benszyklen der Zellobjekte (Kapitel 4.3.2) kombiniert. Die Zusammenfüh- 
rung der objektbezogenen Daten der Lebenszyklen und der gitterbasierten 
Daten der Umgebungsvariablen geschieht durch eine Erweiterung des Daten- 
satzes der Lebenszyklen um repräsentative Werte der Umgebungsvariablen 
zu einem kombinierten objektbezogenen Datensatz. Ein Zellobjekt trägt dort 
zu jedem Zeitpunkt seines Lebenszyklus nicht nur die in den Tabellen 4.1 
und 4.2 gelisteten Attribute, sondern zusätzlich verschiedene Informationen 
über die jeweils vorliegenden Umgebungsbedingungen. 

Anstatt einem Zellobjekt zu jedem Zeitpunkt seines Lebenszyklus die Werte 
der Umgebungsvariablen des dem Zentroid am nächsten gelegenen Gitter- 
punkts in COSMO-EU zum nächstgelegenen Analysezeitpunkt zuzuschrei- 
ben, wird zunächst eine lineare Interpolation der COSMO-EU-Felder auf die 
zeitliche Auflösung der Zellobjekte (5 min) durchgeführt. Anschließend wird 
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zu jedem Detektionszeitpunkt eine Umgebung um das Zellobjekt gelegt, in- 
nerhalb derer der Algorithmus alle Gitterpunkte von COSMO-EU zur Be- 
rechnung repräsentativer Werte der Umgebungsvariablen für das registrier- 
te Zellobjekt zum jeweiligen Detektionszeitpunkt berücksichtigt. In dieser 
Umgebung lassen sich verschiedene statistische Eigenschaften der Werte der 
Umgebungsvariablen bestimmen. Realisiert wird diese Idee im ersten Schritt 
durch die Konstruktion eines Kreises um das durch Azw; Az.o, dz,s und dw 
aufgespannte Rechteck, das die Zellfläche einrahmt (vgl. Kapitel 4.1.2). Die- 
ser Kreis schließt die vier Eckpunkte des Rechtecks ein und dessen Radius 
heiße im Folgenden Zellradius Rz. Auch eine elliptische Form wäre mög- 
lich, um der horizontalen Anisotropie der Zellobjekte Rechnung zu tragen. 
Da die Zellflächen jedoch in derselben Größenordnung wie die horizontale 
Fläche einer Gitterbox von COSMO-EU liegen, ist die exakte geometrische 
Form unbedeutend. Im zweiten Schritt erfolgt eine Erweiterung des Zellra- 
dius Rz um einen festen Wert Ro, sodass der Gesamtradius der dadurch 
definierten Umgebung einer Zelle durch Ry = Rz + Rfix gegeben ist (s. u.; 
Abbildung 4.8a). Diese adaptive Umgebung mit dem Radius Ry ist demnach 
für größere Zellobjekte größer als für kleinere. 
Im Fall, dass bestimmte Umgebungsvariablen wie beispielsweise das NFK 
oder der SHIP nicht an allen Gitterpunkten innerhalb von Ry vorliegen, for- 
dert ein Kriterium, dass an mindestens NGp min Gitterpunkten, welche gleich- 
zeitig einem Anteil von mindestens fGpmin aller Gitterpunkte innerhalb Ry 
entsprechen müssen, Werte vorliegen müssen. Wenn nur an wenigen Gitter- 
punkten innerhalb von Ry Werte vorliegen, sind diese nicht unbedingt reprä- 
sentativ für die Umgebung einer Zelle. Ist dieses Kriterium jedoch erfüllt, 
erfolgt die Zuweisung mehrerer statistischer Maße der Umgebungsvariablen 
zum jeweiligen Zellobjekt (s.u.). Für das abstandsgewichtete Mittel bestim- 
men sich die Gewichte W; mittels der von Cressman (1959) definierten Formel 
Re, -r 


= 29 4.12 
Ra? SS 


i 


179 


4 Datengrundlage und Methoden der Datenaufbereitung 


52.0 N 


ms” 
30 
0.8 4 
SS NM 
25 506- 
> 
2 
51.0°N 2 
zZ 
É 
044 
20 
o linear 
50.5 N oti Cressman 
“| — exponentiell (c = 1) 
lig —— exponentiell (c = 2) 
— exponentiell (c = 4) 
50.0 N 0.0 T T T T 
e s P 5 S e 0.0 0.2 0.4 0.6 0.8 1.0 
8.0 E 85 E 9.0 E 95 E 10.0 E 10.5 E 11.0 E 
Relativer Abstand 
(a) Zur Illustration der Zellumgebung (b) Verschiedene Gewichtungsfunktionen 


Abbildung 4.8: (a) Kombinierte Darstellung der DLS (ms™!), berechnet mit COS- 
MO-EU, und der Zugbahn einer langlebigen Gewitterzelle über Nordhessen am 11. Septem- 
ber 2011 (15 UTC), einem Tag, an dem mehrere Superzellen mit großem Hagel über die Mitte 
und den Norden Deutschlands zogen (z. B. Fluck, 2018). Das KONRAD-Zellobjekt ist in fünfmi- 
nütlichen Abständen in Form von hellblauen Rechtecken eingezeichnet, die alle ihm zugehörigen 
Radarpixel einrahmen. Die erste Zelldetektion (grünes Rechteck) war um 15 UTC. Um das Zell- 
objekt herum sind zwei schwarze Kreise zur Illustration des Zellradius Rz, des Gesamtradius 
Ry sowie von Ro, eingezeichnet. (b) Vergleich verschiedener Gewichtungsfunktionen für den 
relativen Abstand r, vom Zentroid. Die Exponentialfunktionen haben die Form exp(-cr?). 


Darin bezeichnet r; den Abstand r zwischen dem i-ten Gitterpunkt und dem 
Zentroid. Mit der Definition des relativen Abstands vom Zentroid in Bezug 
auf den Gesamtradius r, = rRg' folgt, dass für r, — 0 die Cressman-Funktion 
sehr ähnlich wie eine Exponentialfunktion verläuft, während für r, — 1 der 
Verlauf eher linear wird, sodass sie bei r = Ry den Funktionswert 0 er- 
reicht (Abbildung 4.8b). Anschließend folgt eine Normierung der Gewichte, 
sodass sie in Summe 1 ergeben. Darüber hinaus speichert der Algorithmus 
die Information über die Anzahl der Gitterpunkte innerhalb von Ry sowie 
den Wert von Ry für jedes Zellobjekt ab. 
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Drei Aspekte dieser Vorgehensweise für die Zuweisung der Umgebungsva- 


riablen zu den Lebenszyklen der Zellobjekte in Bezug auf die Eigenschaften 


der vorliegenden Daten werden in der folgenden Zusammenstellung kurz dis- 


kutiert: 


(a) Einzelne Umgebungsvariablen variieren auf Zeitskalen deutlich unter- 


(b 


(c 


) 


wm 


halb von einer Stunde (z. B. bodennahe Feuchteflusskonvergenz), so- 
dass eine zeitliche Interpolation der einstiindigen COSMO-EU-Werte 
auf 5 min nicht zwangsweise realistischere Werte liefert. Die räumli- 
che Mittelung führt zudem zur Glättung kleinskaliger Variationen in 
den Werten der Variablen. Statistische Analysen mit solchen Variablen 
müssen daher, sollte eine Interpolation stattfinden, mit besonderer Vor- 


sicht interpretiert werden. 


Der Kreis um die Zellobjekte erfasst die durch die zeitliche lineare 
Interpolation auftretende Varianz der Umgebungswerte. Dies ist ein 
weiteres Argument dafür, nicht nur den nächstgelegenen Gitterpunkt, 
sondern eine größere Anzahl von nahegelegenen Gitterpunkten zur 


Zuweisung der Umgebungsbedingungen zu wählen. 


Zur Charakterisierung der präkonvektiven Bedingungen wäre die be- 
vorzugte Berücksichtigung von Gitterpunkten stromabwärts einer Zelle 
eine intuitive Festlegung, insbesondere im Bereich von Frontalzonen. 
Da die Datenassimilation von COSMO-EU bis zum 3. September 2014 
jedoch kein Latent Heat Nudging durchführte und Radardaten daher 
nicht assimilierte (vgl. Kapitel 4.2.1), „kennen“ die vor diesem Datum 
berechneten Analysen des Modells die beobachtete Position der beob- 
achteten konvektiven Zellen nicht. Die nach diesem Datum erstellten 
Analysen sind näher an der beobachteten Niederschlagsverteilung. Um 
unabhängig von der Anwendung des Latent Heat Nudgings zu unter- 
suchen, ob sich der analysierte Niederschlag auf die Werte der Um- 


gebungsvariablen innerhalb der über Ry definierten Zellumgebungen 
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auswirkt, erfolgt die Berechnung des Datensatzes auf zwei verschie- 
dene Arten: einmal wie oben beschrieben und einmal mit einer zu- 
sätzlichen Filterung bezüglich des analysierten Niederschlags (s. ui 
Fiir Letztere gehen nur Umgebungswerte von denjenigen Gitterpunk- 
ten in die Bestimmung der Umgebungsbedingungen ein, an denen in- 
nerhalb der vorangegangenen Stunde weniger als 1 mm Niederschlag 
analysiert wurden. Mit diesem Filter werden vor allem die Gitterpunk- 
te aussortiert, an denen durch die Konvektionsparametrisierung von 
COSMO-EU (oder durch das Latent Heat Nudging) die simulierten 
Umgebungsbedingungen potentiell modifiziert wurden, welche damit 
als nicht repräsentativ für die präkonvektiven Bedingungen vermutet 


werden. 


Damit sind mehrere Randbedingungen für die Zuweisung der Umgebungsva- 


riablen zu den Lebenszyklen der Zellobjekte frei wählbar: 


(1) 
(2) 
(3) 
(4) 


(5 


wm 


(6 


wm 
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Wie groß soll R fix gewählt werden? 
Welcher Zeitpunkt der Modelldaten ist am besten geeignet? 
Ist eine zeitliche Interpolation der Modelldaten sinnvoll? 


Wie viele Gitterpunkte charakterisieren die Umgebungsbedingungen 


am besten? 


Bewirkt eine Filterung beziiglich des modellierten Niederschlags einen 
Mehrwert (s. o. Diskussionspunkt (c))? Und falls ja, welcher Schwel- 
lenwert fiir die stiindliche Niederschlagssumme ist am sinnvollsten zu 


wählen? 


Welche statistischen Maße soll der Algorithmus für weitere Untersu- 
chungen abspeichern und was muss bei deren Berechnung genau be- 


achtet werden? 


4.3 Methoden der Datenaufbereitung 


Zur Beantwortung dieser Fragen wurden mehrere Untersuchungen der Sensi- 


tivität bezüglich verschiedener Randbedingungen durchgeführt: 


(1) Umgebungsradius Ry: Variation von R fix zwischen 20 und 50 km 

Die meisten konvektionsrelevanten Variablen variieren auf horizontalen Ska- 
len deutlich unter 100 km. Haklander und van Delden (2003) fanden die bes- 
te Korrelation zwischen aus Radiosondendaten abgeleiteten Umgebungsva- 
riablen und detektierten Blitzen für einen Radius von 20km um die zuge- 
hörige Station. Hamann et al. (2019) verwenden für das Nowcasting-System 
COALITION von MeteoSchweiz (vgl. Kapitel 2.4) für jeden ihrer Prädik- 
toren einen festen Umgebungsradius von 11,5 km. Zöbisch et al. (2020) leg- 
ten um ihre Zellobjekte für Umgebungsvariablen aus hochaufgelösten COS- 
MO-DE-Vorhersagen eine Umgebung mit einem größeren Radius von 50km 
fest, um den Effekt von simulierten konvektiven Zellen auf die Modellfelder 
möglichst gering zu halten. Ry darf in der vorliegenden Arbeit für Umge- 
bungsvariablen aus COSMO-EU-Assimilationsanalysen nicht zu klein, aber 
auch nicht zu groß gewählt werden. Je kleiner Ry ist, desto weniger Gitter- 
punkte gehen ein und desto größer ist der Einfluss von lokalen Variabilitäten, 
welche durch die bei der Berechnung der Umgebungsvariablen durchgeführte 
Glättung jedoch nicht allzu groß sein sollten (vgl. Kapitel 4.3.3). Je größer Ry 
ist, desto größer ist die Gefahr, dass auch Gitterpunkte jenseits von Frontalzo- 
nen oder Luftmassengrenzen zur Berechnung der statistischen Maße beitra- 
gen. Ein beispielhafter Vergleich der Häufigkeiten der Werte der Umgebungs- 
variablen zwischen einem Umgebungsradius Ry mit R fiy = 25 km und einem 
mit Ru, = 50km deutet stark darauf hin, dass die Unterschiede nicht allzu 
groß sind (Abbildung 4.9). Bei einer horizontalen Auflösung von 7 km liegen 
für R fix = 25 km in knapp 94 % der Fälle 45 — 66 COSMO-EU-Gitterpunkte 
innerhalb von Ry, was als ausreichend für die Beschreibung der Umgebung 


beurteilt wird. Daher wird R fix = 25 km festgelegt. 
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Abbildung 4.9: Differenzen der absoluten Häufigkeit der Werte verschiedener Umgebungsvaria- 
blen (arithmetischer Mittelwert der Umgebung) für den Testzeitraum 27. Mai — 26. Juni 2016 
zwischen einem Umgebungsradius Ry mit R fiy = 25 km und einem mit R fix = 50 km. Insgesamt 
gehen in den Vergleich 14 891 Werte ein, also die Werte zu allen Detektionszeitpunkten der 3 749 
Zellobjekte, die die Filterung aus Kapitel 4.3.2 passiert haben. 


(2) Zeitpunkt der Zuweisung: tp; tp — 30 min; tp — 60 min mit Detektions- 
zeitpunkt tp 

Einige konvektionsrelevante Variablen variieren auf zeitlichen Skalen unter 
lh. Für die meisten der betrachteten Variablen sind die Unterschiede zwi- 
schen den (gemittelten) Umgebungswerten zum Zeitpunkt tp und den Werten 
30 oder 60 min vorher jedoch vernachlässigbar klein (nicht gezeigt). Ledig- 
lich für wenige Variablen wie z. B. die bodennahe relative Feuchte, die LLS 
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oder verschiedene Lapse Rates sind bei weniger als 5 % der Zellobjekte deut- 
lich höhere/niedrigere Werte vorzufinden. Daher fällt die Wahl des Zeitpunkts 


für die Zusammenführung der Daten auf tp. 


(3) Zeitliche lineare Interpolation: ja oder nein 

Da viele Umgebungsvariablen auf deutlich größeren, räumlichen Skalen als 
der Umgebung eines Zellobjekts Ry variieren, stellt sich heraus, dass eine 
zeitliche lineare Interpolation etwas genauere Werte für die Umgebungsva- 
riablen zu den jeweiligen Detektionszeitpunkten bestimmen kann, ohne dass 
diese stark von möglichen kleinskaligen (unbekannten) Variationen in der 
Realität abweichen (s. o. Diskussionspunkt (a); Zöbisch et al., 2020). 


(4) Mindestanzahl von Gitterpunkten: 15 bis 50 

Der maximale Gesamtradius Ry liegt für knapp 94% der Zellobjekte mit 
R fix = 25 km zwischen 27 und 32 km (der Rest liegt darüber), da für die meis- 
ten Zellobjekte Rz < Ry gilt. Aufgrund der Anzahl von meist 45 — 66 COS- 
MO-EU-Gitterpunkten innerhalb von Ry wird die Mindestanzahl von Git- 
terpunkten innerhalb von Ry auf NGpmin = 30 festgelegt. Gleichzeitig muss 
die Anzahl einem Anteil von mindestens fGpmin = 50 % aller Gitterpunkte 
innerhalb Ry entsprechen, damit von einer ausreichenden Repräsentativität 


ausgegangen werden kann. 


(5) Schwellenwert für die Niederschlagsfilterung: 0,5; 1,0; 5,0 mm 

Je kleiner der Schwellenwert ist, desto mehr Gitterpunkte werden vom Al- 
gorithmus bei der Zuweisung der Umgebungswerte zu den Zellobjekten als 
Gitterpunkte mit signifikantem Niederschlag erkannt, die als nicht repräsen- 
tativ für die präkonvektiven Umgebungsbedingungen angenommen werden 
und daher nicht in die Berechnungen für die Zuweisung eingehen. Ein hoher 
Schwellenwert dagegen macht die Filterung vernachlässigbar. Damit weisen 
beispielsweise nur 2% der Umgebungen aller betrachteten Zellobjekte bei 
einem Schwellenwert von 5 mm so viele Gitterpunkte mit signifikantem Nie- 


derschlag auf, dass Werte von NGpmin < 30 oder fGPmin < 50% auftreten. 
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Mit einem Schwellenwert von 1 mm ergibt sich ein Anteil von rund 10 %. So- 
mit führt die Niederschlagsfilterung in Kombination mit der Forderung einer 
Mindestanzahl von Gitterpunkten in der Zellumgebung zwangsläufig zu einer 
geringeren Anzahl von repräsentativen Umgebungen. Ohne Niederschlagsfil- 
terung ist der kombinierte Datensatz folglich größer. Da qualitativ nur geringe 
Unterschiede in der Verteilung der Umgebungsvariablen der verbleibenden 
Zellobjekte zu erkennen sind, findet für die weiteren Untersuchungen ab Ka- 


pitel 5 nur der Datensatz ohne Niederschlagsfilterung Anwendung. 


(6) Statistische Maße 

Als Kriterium für eine plausible Zuweisungsmethode wird neben der physi- 
kalischen Sinnhaftigkeit und einem geringen Rechenaufwand auch ein kon- 
sistenter zeitlicher Verlauf der zugewiesenen statistischen Maße der Umge- 
bungsvariablen gefordert, d.h. die Werte der Maße sollten möglichst keine 
signifikanten Sprünge innerhalb eines (fünfminütigen) Zeitschritts aufwei- 
sen. Dies ist für ein abstandsgewichtetes Mittel, das über Gleichung (4.12) 
bestimmt wird, und das arithmetische Mittel sowie deren entsprechende Stan- 
dardabweichungen der Fall. Dasselbe gilt zudem für verschiedene Perzentil- 
werte (0, 25, 50, 75, 100). Diese zwei Mittelwerte und Standardabweichun- 
gen ergeben mit den fünf Perzentilwerten insgesamt neun statistische Maße, 
welche die Verteilung der Werte der Umgebungsvariablen charakterisieren. 
Der Algorithmus speichert diese für jedes Zellobjekt zu jedem Detektions- 
zeitpunkt ab. Eine eigens entwickelte Methode zur Zuweisung, die auf realis- 
tischere Werte bei einer bi- oder trimodalen Verteilung der Umgebungswerte 
innerhalb von Ry abzielt, findet aufgrund von weniger konsistenten zeitlichen 
Verläufen keine Anwendung. Meist ist die Variation der so erhaltenen Wer- 
te der neun ausgewählten statistischen Maße während des Lebenszyklus nur 


gering (s. Kapitel 5.2.1). 
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Eine Analyse des in Kapitel 4.3.4 beschriebenen kombinierten Datensatzes 
aus den zusammengestellten Lebenszyklen konvektiver Zellen und den vor- 
herrschenden Umgebungsbedingungen kann das Verständnis der Entwick- 
lung konvektiver Zellen verbessern, welches fiir das Nowcasting von Gewit- 
tern nützlich ist. Hierfür ist zunächst eine Analyse der Lebenszyklen ohne die 
Berücksichtigung der Umgebungsvariablen hilfreich (Kapitel 5.1). Daneben 
bietet eine Analyse der aus Modelldaten gewonnenen Umgebungsbedingun- 
gen die Möglichkeit, die verschiedenen Umgebungsvariablen und deren Kor- 
relationen untereinander besser einzuordnen (Kapitel 5.2). Durch die Kom- 
bination der Lebenszyklen und Umgebungsvariablen gelingt es anschließend 
aufzuzeigen, dass einige Umgebungsvariablen und Zellattribute konvektive 
Zellen hinsichtlich unterschiedlicher Charakteristika zu einem gewissen Maß 


unterscheiden können (Kapitel 5.3). 


5.1 Statistische Analyse der Zellobjekte 
5.1.1 Merkmale der Zellattribute 


Die 38553 gefilterten Zellobjekte aus den Sommerhalbjahren 2011 — 2016 
verteilen sich über das gesamte Gebiet der Bundesrepublik Deutschland (Ab- 
bildung 5.1). Die Zugbahnen der konvektiven Zellen können durch Poly- 


gone, die aus den Zellobjekten konstruiert sind, näherungsweise dargestellt 
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werden (vgl. Schmidberger, 2018). Die Zusammenstellung der Polygone ge- 
schieht dergestalt, dass zu jedem Detektionszeitpunkt vom Mittelpunkt des 
einrahmenden Rechtecks rechtwinklig zur Verlagerungsrichtung eine hori- 
zontale Ausdehnung angenommen wird, die der Lange der Diagonalen D des 
einrahmenden Rechtecks entspricht (Abbildung 5.2; vgl. Kapitel 4.1.2). Der 
Anfang (das Ende) der Polygone ergibt sich durch eine konstruierte Verlän- 
gerung der detektierten Zugbahn um die Hälfte der Länge der Diagonalen 
gegen (in) die Verlagerungsrichtung. Den Karten in den Abbildungen 5.1a+b 
liegt ein 1 x 1 km?-Gitter zugrunde. Die absolute Häufigkeit für jeden Gitter- 
punkt entspricht der Anzahl von Zugbahnpolygonen, die diesen Gitterpunkt 
einschließen. 

Regionen mit einer Häufung von identifizierten Zellobjekten sind die Schwä- 
bische Alb, das Alpenvorland, ein Gebiet von der Rhein-Neckar-Region 
bis zur Wetterau und dem Vogelsberg sowie Nordrhein-Westfalen und 
Niedersachsen. Hier traten lokal insgesamt etwa 25 Zellen auf, was et- 
wa vier Zellen pro Jahr entspricht. Die Anzahl von Tagen mit mindes- 
tens einem Zellobjekt liegt meist nur wenig unter der beobachteten Ob- 
jektanzahl. Piper und Kunz (2017) bestimmten basierend auf Blitzdaten für 
Deutschland abhängig von der Region eine mittlere Anzahl von Gewitter- 
tagen (mindestens 5 Blitze innerhalb einer Gitterzelle mit einer Ausdeh- 
nung von 10 x 10km?) zwischen meist 5 und 15. Die in Abbildung 5.1b 
dargestellten Werte sind im Vergleich dazu niedriger und ergeben sich zum 
einen dadurch, dass die Auflösung des hier verwendeten Gitters deutlich 
höher gewählt wurde. Zum anderen spielt die Filterung des hier vorlie- 
genden Datensatzes eine Rolle, aufgrund derer nur lediglich 23,3% al- 
ler (bzw. 37,2% aller mindestens zweimal registrierten) Zellobjekte ver- 
treten sind. Gerade räumlich ausgedehnte Multizellen und MCS sind auf- 
grund des Clusterfilters meist herausgefiltert worden (vgl. Kapitel 4.3.2). 
Die ersten drei der oben genannten Regionen (Schwäbische Alb, Alpenvor- 
land, Rhein-Main-Gebiet und Umgebung) sind bekannt für das häufige Auf- 
treten von Gewittern (z.B. Wapler und James, 2015; Piper und Kunz, 2017; 
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(b) Anzahl von Tagen mit mindestens ei- 
nem Zellobjek 
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(c) Zugbahnpolygone aller Zellobjekte (d) Zugbahnpolygone aller Zellobjek- 
mit einer Lebensdauer von mehr als te mit einer Lebensdauer von mehr als 


60 min 
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Abbildung 5.1: Räumliche Verteilung der Zellobjekte im Untersuchungszeitraum der Sommer- 
halbjahre 2011 — 2016. Zu Darstellungszwecken sind in (a) und (b) die Häufigkeiten für Gitter- 
punkte über dem Meer und außerhalb Deutschlands ausgeblendet. 
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Abbildung 5.2: Schematische Darstellung der Konstruktion der mit den Zellobjekten assoziier- 
ten Zugbahnpolygone am Beispiel eines Zellobjekts mit der Lebensdauer Tz = 22 min. 


Taszarek et al., 2019). Die vergleichsweise hohe Anzahl von Zugbahnen in 
Nordwestdeutschland, wo die Anzahl von Gewittertagen pro Jahr im Mittel 
deutlich geringer als in der Südhälfte ist, lässt sich auf die konvektiv sehr akti- 
ve Periode im Mai und Juni 2016 zurückführen (s. u.; vgl. Piper et al., 2016). 
Zellobjekte mit einer langen Lebensdauer von mehr als 60 min (1096 Ob- 
jekte bzw. 2,8 % von 38553) und 120 min (121 Objekte bzw. 0,3%) sind 
ebenfalls in ganz Deutschland zu beobachten!. Die Zugbahn des Objekts mit 
der höchsten Lebensdauer (257 min) gehört zu einem Gewitter, das sich am 
25. August 2012 gegen 13 UTC nordöstlich von Hannover bildete und dessen 
Zugbahn sich bis kurz vor die polnische Grenze erstreckte. Unter den zehn 
Objekten mit der längsten Lebensdauer finden sich mehrere durch Augen- 


zeugenberichte bestätigte Superzellen, während einige prominente Beispiele 


! Die Lebensdauer eines Zellobjekts wird im Folgenden der KONRAD-internen Zuweisung 
entsprechend stets mit 7, 12, 17 min etc. angegeben (vgl. Kapitel 4.1.2). Häufig findet im 
Folgenden auch eine Beschreibung eines Zellattributs durch einen Bezug auf den Zeitpunkt 
der ersten Detektion statt. Beispielsweise sind die Bezeichnungen „Zellfläche 10 min nach der 
ersten Detektion“, ,,Zellflache zum Zeitpunkt der dritten Detektion“ und „Zellfläche im Alter 
von 12 min“ äquivalent. 
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Abbildung 5.3: (a) Absolute Häufigkeitsverteilung der Zellobjekte je nach Datum und Uhr- 
zeit (UTC) des jeweiligen Tags. Die Uhrzeit entspricht dem Zeitpunkt der ersten Detektion. Die 
Klassifikation erfolgt auf Wochen- bzw. Stundenbasis. Klassen mit weniger als zehn Objekten 
sind transparent dargestellt. (b) Wöchentliche Häufigkeiten der Zellobjekte für die Sommerhalb- 
jahre 2011 — 2016. Die Linien zeigen jeweils die Summe der Objekte aller Sommerhalbjahre von 
2011 bis einschließlich zum angegebenen Jahr. 


wie die Superzelle vom 11. September 2011 (Rheinland-Pfalz bis Branden- 
burg; z.B. Fluck, 2018) oder die Superzellen vom 27. und 28. Juli 2013 (in 
der Region um Wolfsburg bzw. Reutlingen; vgl. Kunz et al., 2018) nicht im 
Datensatz enthalten sind. 

Im Untersuchungszeitraum wurde isolierte Konvektion vornehmlich zwi- 
schen 10 und 19 UTC, also zwischen 12 und 21 Uhr MESZ, beobachtet (Ab- 
bildung 5.3a). Besonders im Hoch- und Spätsommer kam es jedoch auch 
zu nächtlicher Konvektion. Diese Verteilung hat große Ähnlichkeiten mit 
den für verschiedene Teile Mitteleuropas mit Hilfe von Blitzdaten bestimm- 
ten Verteilungen von Schulz et al. (2005), Novak und Kyznarovä (2011), 
Wapler (2013) und Piper und Kunz (2017). Insbesondere die letzte Juliwoche 
ist in Abbildung 5.3a auffällig. Hier entwickelten sich in den Jahren 2013, 
2014 und 2016 besonders viele konvektive Zellen (Abbildung 5.3b). Das 
nachmittägliche Maximum der Häufigkeit Anfang Juni lässt sich vor allem 


auf die konvektiv aktiven Perioden der Jahre 2011 sowie 2016 zurückführen. 
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Abbildung 5.4: Absolute Häufigkeitsverteilung verschiedener Zellattribute in logarithmischer 
Darstellung für alle 38 553 Zellobjekte. Die am Oberrand angegebenen Zahlen geben entspre- 
chend die relative Häufigkeit (%) an. Die Abbildungen (b)—(d) sind zusätzlich um die Verteilun- 
gen aller Zellobjekte mit einer Lebensdauer von mehr als 15, 60 bzw. 120 min ergänzt. Je dunkler 
der Farbton, desto höher der Schwellenwert. In (d) entspricht 0° Norden, 90° Osten, 180° Süden 
und 270° Westen. 


Den größten Anteil der 38 553 Zellobjekte stellen erwartungsgemäß konvek- 
tive Zellen mit einer kürzeren Lebensdauer dar, wobei sowohl das Zellver- 
folgungsverfahren von KONRAD als auch die hier angewendete Filterung 
einen Einfluss auf die Verteilung haben. Daher ergibt sich eine sehr schie- 
fe Verteilungsfunktion hinsichtlich der Lebensdauer (Abbildung 5.4a), die 
ein zentrales Grundproblem für die Entwicklung statistischer Modelle zur 


Vorhersage der Lebensdauer darstellt (vgl. Kapitel 2.4; Davini et al., 2012; 
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Wapler, 2021). Ähnlich schiefe Verteilungen ergeben sich für die maxi- 
male Fläche der Zellobjekte (Fläche mit einem Reflektivitätsfaktor von 
Z > 46 dBZ; vgl. Tabelle 4.1) während ihrer Lebenszyklen (Abbildung 5.4b) 
sowie die Zugbahnlänge (Abbildung 5.4c). Dabei stellen die Zellobjekte mit 
einer langen Lebensdauer von mehr als 60 min einen großen Teil des rechten 
Rands der Gesamtverteilung der maximalen Zellfläche und der Zugbahnlän- 
ge, wobei von den Intervallen ganz rechts wiederum Zellobjekte mit einer 
sehr langen Lebensdauer von mehr als 120 min einen großen Teil stellen. 
Dennoch unterscheiden sich Zellen mit einer (sehr) langen Lebensdauer un- 
tereinander teilweise deutlich in ihrer maximalen Fläche und der Länge ihrer 
Zugbahn (und damit ihrer Verlagerungsgeschwindigkeit). Die Zugbahn des 
Zellobjekts mit der längsten Lebensdauer (25. August 2012) war beispiels- 
weise 210 km lang, die maximale Fläche betrug jedoch lediglich 72 km”. Eine 
Superzelle am 27. April 2015 zog hingegen deutlich langsamer, was zu einer 
Zugbahnlänge von 100 km führte, jedoch mit einer maximalen Fläche von 
157 km? 

Ein großer Anteil aller Zellobjekte kommt aus dem Sektor 195°—285°, 
zog also etwa von (siid-)westlichen in (nord-Jöstliche Richtungen (Abbil- 
dung 5.4d). Da das Zentroid der Zellobjekte auf den Daten des gerasterten 
Radarkomposits beruht, erkennt man besonders für die Zellobjekte mit einer 
kurzen Lebensdauer von weniger als 15 min, dass bestimmte Richtungen 
aufgrund der Gittergeometrie bevorzugt auftreten (z. B. knapp 6 000 Objekte, 
die in einem kleinen Bereich von 0,02rad ~ 1,14° um 90, 180, 270 und 
360° liegen). Dieser Gittereffekt wird mit steigender Lebensdauer geringer, 
zumal der Algorithmus eine Glättung der Richtungswinkel über drei 
Detektionszeitpunkte vornimmt (vgl. Kapitel 4.3.2). Beispielsweise liegen im 
oben genannten Sektor 61,4% aller Zellobjekte mit einer Lebensdauer von 
mehr als 15 min. Damit herrscht eine sehr hohe Übereinstimmung der hier 
vorliegenden Verteilung mit den Ergebnissen von Wapler und James (2015), 
Wapler (2021) und Schmidberger (2018). Erstere Studien basieren ebenfalls 
auf Stichproben von KONRAD-Daten, letztere auf 9798 Hagelzugbahnen 
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aus dem Zellverfolgungsalgorithmus TRACE-3D. Beriicksichtigt man nur die 
Verteilung der Zellobjekte mit langer Lebensdauer, steigt der Anteil der be- 
obachteten Objekte im Sektor 195°—285° auf 72,1 % (Lebensdauer länger als 
60 min) bzw. 85,1 % (Lebensdauer länger als 120 min; vgl. Abbildung 5.1d). 
Eine solche südwestliche Anströmung transportiert häufig feucht-warme 
Luftmassen aus dem südwest-europäischen Raum nach Mitteleuropa, welche 
die Gewitterbildung in Deutschland begünstigen (Kapsch et al., 2012; 
Piper und Kunz, 2017; Mohr et al., 2019). 


Im nächsten Schritt wird die relative Häufigkeit von Zellobjekten mit lan- 
ger Lebensdauer in Abhängigkeit von verschiedenen Zellattributen betrach- 
tet (Abbildung 5.5). Um sinnvolle Werte für die betrachteten Zellattribute zu 
erhalten, gehen in diese Analyse nur Zellobjekte ein, die mindestens vier- 
mal registriert wurden (Tz > 15 min). Die relative Häufigkeit für einen festen 
Abszissenwert (blaue Linie) bestimmt sich hier, indem zunächst die 500 (Ab- 
bildungen 5.5a—c) bzw. 1000 (Abbildung 5.5d) Zellobjekte ausgewählt wer- 
den, deren entsprechender Wert diesem Abszissenwert am nächsten liegt. In- 
nerhalb dieser Auswahl wird anschließend der Anteil von Zellen mit einer 
langen Lebensdauer (7z > 60 min) bestimmt. 

Bei einer schnellen Intensivierung bzw. einem schnellen horizontalen Wachs- 
tum zu Beginn des Lebenszyklus steigt die Wahrscheinlichkeit für langlebige 
Zellen. Intensiviert sich eine Zelle binnen 10min nach der ersten Detekti- 
on, sodass die Fläche des Zellkerns des assoziierten Zellobjekts Az x (Teil- 
bereich der Zellfläche mit einem Reflektivitätsfaktor von Z > 55 dBZ; 
vgl. Tabelle 4.1) auf etwa Ask > 8 — 10km? angewachsen ist, verdreifacht 
sich etwa die Wahrscheinlichkeit für eine lange Lebensdauer von mehr als 
60 min gegenüber Zellobjekten mit Az x = 0 km? (Abbildung 5.5a). Gleiches 
gilt, wenn ein Zellobjekt in der gleichen Zeitspanne auf eine Zellfläche Az 
von mehr als etwa Az = 45 km? anwächst (Abbildung 5.5b). Ursache hierfür 
könnte eine vorhergehende schnelle Intensivierung des Aufwindbereichs der 


Zellen sein, welche sowohl das vertikale Wachstum als auch die horizontale 
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Abbildung 5.5: Absolute Häufigkeit verschiedener Zellattribute für alle Zellobjekte mit ei- 
ner Lebensdauer von mehr als 15min (Tz > 15min; Histogramm, linke Ordinate). Außer- 
dem: relative Häufigkeit verschiedener Zellattribute für Zellobjekte mit einer langen Lebensdau- 
er (Tz > 60 min) bezüglich der Zellobjekte mit Tz > 15 min (blaue Kurve, rechte Ordinate). In (a) 
und (b) existieren aufgrund der diskreten Werteverteilung der Zellattribute für einen Abszissen- 
wert viele Ordinatenwerte. Zusätzlich dargestellt ist eine Glättung der relativen Häufigkeiten 
mittels lokaler linearer Regression (Local Linear Kernel Regression; vgl. Cleveland, 1979; rote 
Kurve). Details siehe FlieBtext. 


Ausbreitung der hochreichenden Konvektionszelle fördert. Dadurch kommt 
es zu rascher Niederschlagsbildung in einem ausgedehnten Luftvolumen, 
welche sich kurze Zeit später in hohen Werten des Reflektivitätsfaktors nie- 
derschlägt. Eine ähnliche schnelle Zellentwicklung wurde beispielsweise bei 
der bekannten Superzelle vom 28. Juli 2013 beobachtet (Kunz et al., 2018). 
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Bei niedrigen tiber den Lebenszyklus gemittelten Verlagerungsgeschwin- 


digkeiten von Cz < ams 


, die meist mit einer gradientschwachen 
synoptisch-skaligen Hintergrundstr6mung und damit verbunden mit einer ge- 
ringen vertikalen Windscherung einhergehen, ist die Wahrscheinlichkeit fiir 
eine lange Lebensdauer vier- bis fünfmal geringer als bei cz > 15ms~! (Ab- 
bildung 5.5c). Dies kann mit den bevorzugten Organisationsformen der Er- 
eignisse erklärt werden, da unter windschwachen Bedingungen vornehmlich 
isolierte Einzelzellen auftreten, deren Aufwindbereich infolge des selbst pro- 
duzierten Niederschlags frühzeitig abgebaut wird (vgl. Kapitel 2.2). Bei süd- 
westlicher bis westlicher Anströmung ist die Wahrscheinlichkeit, dass ein 
Zellobjekt eine Lebensdauer von mehr als 60 min erreicht, knapp doppelt 
so hoch wie bei anderen Strömungsverhältnissen (Abbildung 5.5d). Darüber 
hinaus sind etwa 89,8% aller Zellobjekte mit Zugbahnen länger als 50km 
im Sektor Süd-Südwest bis West-Nordwest zu finden, was sowohl auf eine 
längere Lebensdauer als auch auf schnellere Verlagerungsgeschwindigkeiten 


zurückzuführen ist (nicht gezeigt). 


5.1.2 Beschreibung des Lebenszyklus der Zellobjekte 


Bereits aufgrund der unterschiedlichen Organisationsformen konvektiver Zel- 
len (Kapitel 2.2) wird deutlich, dass eine allgemeingültige Definition des 
Lebenszyklus für alle Formen nicht möglich ist. Dennoch zielen viele Un- 
tersuchungen darauf ab, auf Basis einzelner Fallstudien oder Statistiken einer 
Stichprobe möglichst verallgemeinernde Aussagen treffen zu können, um die- 
ses Verständnis in (operationellen) Nowcasting-Verfahren — am besten mittels 


einer einfachen, aber universellen Methode — anzuwenden (vgl. Kapitel 2.4). 


Parabelansatz 


Ältere Untersuchungen von KONRAD-Daten zeigen, dass die mittle- 
re Entwicklung der Zellflächen in etwa die Form einer nach un- 


ten geöffneten Parabel oder einer halben Periode einer Sinusfunktion 
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hat (Blahak et al., 2018; Wapler, 2021), weshalb der DWD zurzeit einen 
Parabelansatz testet? (vgl. Kapitel 4.1.2; Feger et al., 2019; Werner, 2020). 
Auch Weusthoff und Hauf (2008) beobachteten bereits, dass sich die Flä- 
che (sowie die über die Fläche gemittelte Regenrate) von postfrontalen Ein- 
zelzellen auf diese Weise entwickelt. Davini et al. (2012) berichteten, dass 
konvektive Zellen ihre maximale Intensität bereits in der ersten Hälfte ihres 
Lebenszyklus erreichen, während die maximale Zellfläche erst in der zweiten 
Hälfte angenommen wird. Neuere Untersuchungen von Brisson et al. (2018) 
legen nahe, dass die höchste mittlere Regenrate bereits etwa nach einem Vier- 
tel der Lebensdauer auftritt. Im Folgenden wird in Anlehnung an diese Un- 
tersuchungen zunächst ein Parabelansatz formuliert und diskutiert. In Kapi- 
tel 5.3.1 wird dieser um die Berücksichtigung einer Umgebungsvariablen er- 
weitert und in Kapitel 6.3.2 für den Zweck einer quantitativen Modellstudie 
zur Abschätzung der Lebensdauer konvektiver Zellen verwendet. 

Der vorliegende Datensatz bestätigt den mittleren parabelförmigen Verlauf 
der Fläche der KONRAD-Zellobjekte Az (Abbildung 5.6a). Die maximale 
beobachtete Zellfläche steigt mit zunehmender Lebensdauer an. Allerdings 
ist die Variabilität der einzelnen Entwicklungen der Zellobjekte sehr hoch, 
sodass sich die Variationsbereiche (10-Intervall) der Objektgruppen unter- 
schiedlicher Lebensdauer stark überlappen (Abbildung 5.6b). Hinzu kommt, 
dass sich insbesondere in den ersten 15 — 30 min des Lebenszyklus beispiels- 
weise die mittleren Flächenentwicklungen der Objekte mit einer Lebensdauer 
von Tz € (45 min; 90min) kaum von denen mit einer noch längeren Lebens- 
dauer unterscheiden. Dies lässt die Schlussfolgerung zu, dass sich alleine 
auf dieser Basis eine (deterministische) Abschätzung der zu erwartenden Le- 
bensdauer von konvektiven Zellen, insbesondere innerhalb der ersten halben 
Stunde, als eher schwierig erweisen wird (Details folgen in Kapitel 6.3.2 und 
Anhang C). 


? Verwendung als internes Lebenszyklusmodell für KONRAD3D in Kombination mit einem 
Ensemble Kalman Filter (EnKF). 
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Abbildung 5.6: Mittlere zeitliche Entwicklung (a) der Fläche der Zellobjekte, (c) der Zellkernflä- 
che sowie (e) deren Verhältnis, sortiert nach der Lebensdauer der Objekte. Unterschiedliche Li- 
nienfarben indizieren unterschiedliche Werte für die Lebensdauer. Die Zahlen an den Enden der 
Linien geben die Anzahl von Objekten an, die zur Mittelung beigetragen haben. Nur jede zweite 
Linie der fünfminütlich aufgelösten Zellstatistik ist der Übersicht halber eingezeichnet. (b), (d) 
und (f): Wie (a), (c) und (e), nur dass nur jede vierte Linie eingezeichnet ist, dafür aber mit einem 
der Standardabweichung entsprechenden Variationsbereich (10-Intervall). 
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Etwas differenzierter stellt sich die Entwicklung der Fläche des Zellkerns 
Az g bzw. des Verhältnisses der Fläche des Zellkerns zur gesamten Zellfläche 
dar (Abbildungen 5.6c—f). Dieses Verhältnis kann als Proxy für die mittlere 
Regenrate oder die Intensität des Zellobjekts angesehen werden. Ist dieses 
Verhältnis groß, ist ein großer Teil des Zellobjekts auf Regionen mit einem 
sehr hohen Reflektivitätsfaktor von Z > 55 dBZ zurückzuführen. Doch 
auch große Zellobjekte mit kleinem Verhältnis können intensive Zellkerne 
beinhalten. Das mittlere Verhältnis von Zellkernfläche zu Zellfläche liegt für 
Zellobjekte mit einer längeren Lebensdauer die meiste Zeit des Lebenszyklus 
— und auch schon sehr frühzeitig — oberhalb von Az x Az = 0,1. Objekte 
mit einer kürzeren Lebensdauer hingegen erreichen das maximale Verhältnis 
bereits kurz nach der ersten Detektion mit etwa Az K Ay = 0,1, welches 
anschließend im Mittel abfällt (Abbildung 5.6e; vgl. Brisson et al., 2018). 
Auch hieraus lässt sich folgern, dass ein rasches, intensives Wachstum zu 
Beginn des Lebenszyklus ein Indikator für eine lange Lebensdauer sein 
kann (vgl. Davini et al., 2012). 


Die Darstellung des Parabelansatzes zur Beschreibung der zeitlichen Ent- 
wicklung der mittleren Zellfläche durch eine Funktionenschar mit dem Schar- 


parameter Tz lautet (analog zu Weusthoff und Hauf, 2008): 


of Mz) GN” 
AY? (0) = Agan +4 T27 (: z) (5.1) 


Darin ist zZ) = AV?) EH die Amplitude der Entwicklung der je- 
weiligen mittleren Zellflachen. Der Korrelationskoeffizient auf Basis der 
38553 Zellobjekte fiir die Korrelation zwischen der Amplitude und der 
Lebensdauer Tz liegt bei einem hohen Wert von rp ~ 0,74 (rs ~ 0,73), 
d.h. die Abhängigkeit der Amplitude von der Lebensdauer kann nähe- 


rungsweise als linear angenommen werden, sodass ./ (Tz) ~ caTz mit 
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(a) Bestimmung von æ% (Tz). Der Regressi- (b) Bestimmung von Azuin(Tz). Der Re- 
onskoeffizient ist ca = 0,295 km? min7!, der gressionskoeffizient ist U4 = 21,326 km?, der 
RMSE liegt bei rund 4,2 km?. RMSE liegt bei rund 1,1 km?. 


Abbildung 5.7: Überblick über (a) die Amplituden und (b) die Minima der Verläufe der mittleren 
Zellflächen in Abhängigkeit von der Lebensdauer. Der lineare Fit in (a) erfolgt ohne konstanten 
Term. Außerdem gehen nur Werte für die Lebensdauer zwischen 10 und 150 min ein, um wenige 
Zellobjekte mit einer langen Lebensdauer von mehr als 150 min nicht zu stark zu gewichten. 


dem mittels linearer Regression (vgl. Kapitel 3.3.1) bestimmten Koeffizien- 
ten ca = 0,295 km? min=! gilt (Abbildung 5.7a). Das Minimum der Zellfläche 
wird zum Zeitpunkt der ersten Detektion angenommen, welche aufgrund des 
Kriteriums zur Detektion einer Zelle in KONRAD für die meisten Zellobjekte 
eine ähnliche Größe hat (vgl. Kapitel 4.1.2; Wapler, 2021). Über einen kon- 
stanten Fit erhält man daher AZ) = Ua, wobei gilt: ua = 21,326 km? (Ab- 
bildung 5.7b). Damit wird Gleichung (5.1) zu: 


2 
(Tz) cATz Tz t 
A = T; t = 4cat | 1-—]}. (5.2 
Z (t) = ua + caTz l z) Ha +4cA ( Tz (5.2) 
Die so erhaltene Parabelschar (Abbildung 5.8a) ist in ihrem Wertebereich 
nach oben hin durch Az ri (t) = Ha +4cat limitiert. Wie man diesen Ansatz 
zur Abschätzung der zu erwartenden Lebensdauer oder maximalen Zellfläche 
anwenden kann, beschreiben die Kapitel 6.3.2 und 6.4.2. 
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Gleichung (5.1) lässt sich durch wenige mathematische Operationen weiter 


vereinfachen und man erhält 


of (Tz) Tz 2 
—> AU lh 1-4) (5.3) 


(Tz) (Tz) 2 
A t)—A min t 1 
A, = 


mit den Normierungsvorschriften 


m aAa) AM. l eat. (5.4) 

Af (Tz) 

Durch diese Normierung reduziert sich die Parabelschar auf eine einzige Pa- 
rabel, die den mittleren Verlauf der mit der Amplitude normierten Zellflä- 
che während des Lebenszyklus aller Zellobjekte beschreibt (Abbildung 5.8b; 
vgl. Weusthoff und Hauf, 2008). Betrachtet man die normierten Verläufe in 
Abhängigkeit von der Lebensdauer, ist zu erkennen, dass sich mit steigen- 
der (absoluter) Lebensdauer das Maximum der Zellfläche zu einem späte- 
ren (relativen) Zeitpunkt des Lebenszyklus verschiebt (ca. zwei Drittel des 
Lebenszyklus; vgl. Davini et al., 2012). Eine mögliche Erklärung könnte sein, 
dass Zellen mit einem besonders intensiven und breiten Aufwindbereich und 
damit verbunden einer großen vertikalen Erstreckung eine lange Lebensdauer 
erreichen. Diese dehnen sich während des Lebenszyklus aufgrund der Be- 
grenzung durch die Tropopause zunehmend horizontal aus (vgl. Kapitel 2.2). 
Möglicherweise erreichen diese Zellen die größte Zellfläche erst nach dem 


Zeitpunkt der höchsten maximalen Intensität. 


Strömungsfeldansatz 


Eine alternative Betrachtungsweise der zeitlichen Entwicklung der Zellflä- 
che zum Parabelansatz ist die Darstellung mit Hilfe eines Strömungsfelds 


im Zustandsraum 7, dessen Dimensionen das Zellalter und die Zellfläche 
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(a) Parabelschar gemäß Gleichung (5.2) (b) Normierter Verlauf der Zellfläche sowie Pa- 
rabel gemäß Gleichung (5.3) 


Abbildung 5.8: (a) Parabelschar des analytischen Modells gemäß Gleichung (5.2) für die 
zeitliche Entwicklung der Zellfläche Az(t) mit der Lebensdauer Tz als Scharparameter. Die 
Limitierung des Wertebereichs ist durch die schwarz gestrichelte Linie gekennzeichnet. (b) 
Mittlerer Verlauf der normierten Zellflache AZ bezüglich des jeweiligen Lebenszyklus. Schwarz 
gestrichelt ist die Kurve des normierten Parabelmodells aus Gleichung (5.3). 


aufspannen (Abbildung 5.9). Die Beschreibung des Strömungsfelds 
vz(t,Az) = v:(t,Az)e + va(t,Az)ea (5.5) 


mit den Einheitsvektoren e und den entsprechenden Komponenten v ist 
beispielsweise durch den Median (-) der beobachteten lokalen (Euler’schen) 
Tendenzen der beiden Zellattribute Zellfläche (Az) und Zellalter (t) bezüglich 


der Zeit (r’) innerhalb eines bestimmten Teilgebiets von & möglich: 


d 

v,(t,Az) = (3) oc (5.6) 
ðA 

va(t,Az) = (2) (1,Az). (5.7) 


Die Stromlinien s, dieses Stromungsfelds, die überall tangential zum lokalen 
Strömungsvektor liegen, charakterisieren folglich mögliche Entwicklungen 


der Zellfläche. Numerisch erfolgt die Bestimmung der Stromlinien über die 
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Stromliniengleichung (Stromlinienparameter &) 


SE vz(s(Ẹ)) (5.8) 


beispielsweise mit Hilfe von Finite-Differenzen- Verfahren. 

Zur Bestimmung des in Abbildung 5.9 dargestellten Stromungsfelds gehen 
alle Zellobjekte ein, die mindestens dreimal registriert wurden. Finden 
Zellobjekte mit noch ktirzerer Lebensdauer Beriicksichtigung, so weist das 
Strömungsfeld schon zu Beginn negative Tendenzen der Zellfläche auf. 
Die Tendenzen bestimmen sich über finite Differenzen: zu Beginn und 
am Ende des Lebenszyklus über einseitige Differenzen zweiter Ordnung 
und dazwischen über zentrierte Differenzen zweiter oder, sofern möglich, 
vierter Ordnung. Dadurch erfolgt zudem eine leichte Glättung der jeweiligen 
Tendenzverläufe der Zellobjekte. Nur solche Teilgebiete von 2, die 
mindestens zehn Zellobjekte aufweisen können, tragen zum Strömungsfeld 
bei. Für alle anderen wird angenommen, dass die wenigen beobachteten 


Tendenzen nicht repräsentativ genug sind. 


Der Median der Tendenz der Zellfläche ist in den ersten 15 min nach dem 
Zeitpunkt der ersten Detektion meist positiv. Je größer die Zellflache zum 
Zeitpunkt der zweiten oder dritten Detektion ist, desto größer ist die Tendenz 
für ein weiteres (schnelles) Wachstum. Schon nach 20 min ist der Median der 
Tendenz der Zellfläche meist negativ, wobei die Variabilität auch in dieser 
Analyse sehr hoch ist. Die negative Tendenz resultiert dabei aus der schiefen 
Verteilung des Datensatzes bezüglich der Lebensdauer (vgl. Abbildung 5.4a). 
Der Verlauf der Stromlinien in Abbildung 5.9a ist somit gestreckter als die 
Verläufe im Parabelansatz. Man sieht zudem eindrücklich, dass der oben her- 
geleitete Parabelansatz aus Gleichung (5.2) ein sehr schnelles Zellwachstum 
zu Beginn des Lebenszyklus ausschließt (Region links oberhalb der gestri- 
chelten Linie). 
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(b) Strömungsfeld und Stromlinien, welche die Entwick- 
lung von Zellobjekten gleich starken anfänglichen Wachs- 
tums charakterisieren, die sich jedoch im Anschluss wie 
das 40., 45., 50. (rot), 55. bzw. 60. Perzentil entwickeln. 


Abbildung 5.9: Mittlere Entwicklungstendenzen der Zellfläche aller Zellobjekte eines bestimm- 
ten Alters innerhalb eines Bereichs der Zellfläche von 5km? (farbige Boxen). Darüber das 
Strömungsfeld, dargestellt durch entsprechende Bewegungsvektoren im Zellalter-Zellfläche- 
Raum (Median [dunkelblaue Pfeile] sowie (a) 25. und 75. Perzentil, (b) 40. und 60. Per- 
zentil [hellere Pfeile, gekürzt]). Limitierungen des Parabelmodells Az nl = Ua + 4cat sind 
als gestrichelte (u4 = 21,326 km?, ca = 0,295 km? min!) und durchgezogene (ua = 35 km?, 
ca = 0,5 km? min "IN Linien dargestellt. Rötliche Linien stellen Stromlinien dar. Der Strömungs- 
vektor in einem Gebiet ist nur dort dargestellt, wo mindestens zehn Zellobjekte vorliegen. 
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Wapler (2021) konstatierte auf der Basis eines ähnlichen Datensatzes und ei- 
ner ähnlichen Darstellung der Verläufe der Zellfläche als Parabel, dass die 
Wachstumsrate aller Zellobjekte zu Beginn recht ähnlich sei. Ein schnel- 
les Wachstum der Zellfläche wird jedoch recht häufig beobachtet (s. 0.) 
und durch das Strömungsfeld besser repräsentiert. Die sehr großen Tenden- 
zen links oberhalb der durchgezogenen Linie, die Az tal) für sehr hohe 
Werte der Regressionsparameter 4 = 35km? und c4 = 0,5km? min! dar- 
stellt (s. Kapitel 5.3.1), erfordern aufgrund der Berechnungsmethodik eine 
vorsichtige Interpretation. Trotz der umfangreichen Filterung sind einzelne 
fehlerhafte Lebenszyklen von Zellobjekten im Datensatz vorhanden, die den 
Filter für die Zellfläche (vgl. Kapitel 4.3.2) gerade so passiert haben. Wäh- 
rend Zellobjekte mit einer Lebensdauer von mehr als 30 min und (zugleich) 
einer maximalen Zellfläche von mehr als 60 km? zum Zeitpunkt der zweiten 
Detektion einen Median von etwa 30-35 km? aufweisen, erreichen Zellob- 
jekte mit Tz < 30min und Az max > 60 km? für diesen Zeitpunkt im Median 
eine Zellfläche von 57 km? (nicht gezeigt). Da diese extrem schnelle Zellflä- 
chenentwicklung bis zum zweiten Detektionszeitpunkt kaum mit einer neu 
entstandenen konvektiven Zelle erklärbar ist, sind letztere eher als fehlerhafte 
Lebenszyklen einzuordnen, wobei sie ca. 13,4% (141) aller Zellobjekte mit 
einer maximalen Zellfläche von mehr als 60 km? stellen (1 052). 

Die Wahl des Medians zur Festlegung des Strömungsfelds vz in Glei- 
chung (5.7) ist zwar intuitiv und plausibel, jedoch keineswegs zwingend. 
Wählt man statt des Medians nur leicht variierte Perzentile, so ergeben sich 
bereits sehr unterschiedliche Verläufe der Stromlinien mit demselben Start- 
punkt im Zustandsraum 2 (Abbildung 5.9b). Erst durch die Stromlinien wird 
die Auswirkung der Variabilität der Tendenzen auf den Verlauf der Zellfläche 
und auf die Lebensdauer deutlich. Eine Anwendung des Strömungsfelds zur 
Abschätzung der zu erwartenden Lebensdauer oder maximalen Zellfläche er- 


folgt ebenso wie für den Parabelansatz in den Kapiteln 6.3.2 und 6.4.2. 
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5.2 Analyse der Umgebungsbedingungen 


Basierend auf dem kombinierten Datensatz (vgl. Kapitel 4.3.4) werden im 
Folgenden die atmosphärischen Umgebungsbedingungen der Zellobjekte ge- 
nauer untersucht. Um eine bessere Lesbarkeit zu gewährleisten, werden Ab- 
kürzungen für die in Tabelle E.1 genauer beschriebenen und hier relevan- 
ten Umgebungsvariablen eingeführt (vgl. hierzu auch die Beschreibung der 
Variablen in Kapitel 2, Tabelle 4.3 bzw. Anhang A). Die Auswahl dieser 
Variablen erfolgt in Anlehnung an die noch folgenden Analysen aus Kapi- 
tel 5.3.1, die unter anderem das Unterscheidungsvermögen der Umgebungs- 
variablen hinsichtlich verschiedener Werte für die Lebensdauer der Zellob- 
jekte untersuchen. Dadurch wird eine objektive Reduzierung der Variablen- 
anzahl von 747 auf 33 Variablen erreicht, welche Redundanzen verringert. 
Wie in Kapitel 4.3.4 beschrieben sind für jede Variable verschiedene statisti- 
sche Maße für die Zellumgebung verfügbar, welche in den Abbildungen mit 
einem Kürzel gemäß der Spalte „Statistik“ in Tabelle E.1 hinter dem Varia- 


blennamen charakterisiert, im Fließtext jedoch ausgespart werden’. 


5.2.1 Statistische Merkmale der Umgebungsvariablen 


Im Folgenden werden exemplarisch einige Umgebungsvariablen diskutiert, 
die Maße für die thermische Stabilität, den Feuchtegehalt oder die vertikale 
Windscherung darstellen. In Bezug auf die Stabilität weisen knapp 73 % der 
Zellobjekte gemittelt über ihren Lebenszyklus eine CAPEyu von weniger als 


3 Sofern nicht explizit anders angegeben handelt es sich in Kapitel 5.2.1 immer um das in 
Gleichung (4.12) beschriebene abstandsgewichtete Mittel der jeweiligen Variablen in der 
Zellumgebung (wm; erster Eintrag in der Spalte „Statistik“ in Tabelle E.1). Ab Kapitel 5.2.2 
wird jeweils das statistische Maß der Umgebungsvariablen verwendet, das als zweiter Eintrag 
in der Spalte „Statistik“ in Tabelle E.1 geführt ist. Ausnahmen bilden die 850 hPa Temperatur 
und pseudopotentielle Temperatur, für die verschiedene statistische Maße verwendet werden, 
die jeweils explizit angegeben werden (wm, max oder sdam). Sofern nicht explizit anders 
angegeben wurden die Umgebungsvariablen zudem zeitlich über die komplette Lebensdauer 
der Zellobjekte gemittelt. 
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500Jkg—! auf (93 % weniger als 1000Jkg~!; Abbildung 5.10a). Somit ist 
ein Großteil der Zellen eher im Bereich niedriger bis moderater CAPE auf- 
getreten. In Mitteleuropa sind hohe CAPE-Werte von weit über 1 000 Jkg~! 
im Vergleich zu den USA allgemein deutlich seltener (Brooks et al., 2003; 
Taszarek et al., 2020). Die Werte des SLI liegen meist um OK bzw. leicht 
im negativen (instabilen) Bereich, die der mitteltroposphärischen Lapse Ra- 
te LRgso—soonpa befinden sich vornehmlich im bedingt labilen Bereich zwi- 
schen meist 5,5 und 7 Kkm™! (vgl. Kapitel 2.1.2). 

Bezüglich der vertikalen Windscherung weisen knapp 80% der Zellob- 


' auf. 


jekte eine niedrige bis moderate DLS von weniger als 18ms~ 
Davon tritt nur jedes zwanzigste Zellobjekt bei einer CAPEyy von 
mehr als 1000Jkg~! bzw. bei einer maximalen Vertikalgeschwindig- 
keit Wmax = /2CAPEyu von mehr als etwa 45ms-! auf (Abbil- 
dung 5.11a; vgl. Kapitel 2.1.2). Die Werte der SRHo_3xm liegen meist zwi- 
schen 0 und 200 m? s~?. Solche Verteilungen der DLS und der SRHo_3xm sind 
in guter Übereinstimmung mit der im Vergleich zu Einzelzellen niedrigen 
beobachteten Häufigkeit von Superzellen in Mitteleuropa (vgl. Kapitel 2.2.3; 
Taszarek et al., 2020). 

Gemäß der Clausius-Clapyeron-Gleichung (2.18), nach welcher der Sätti- 
gungsdampfdruck exponentiell mit zunehmender Temperatur steigt, finden 
sich hohe Werte des IWV bei hohen Werten der Temperatur Tgsonpa (wm; 
Abbildung 5.11b). Der Anteil von Zellobjekten, die in warmer Luft mit 
Tssonpa > 15 °C registriert wurden, ist mit 11,5 % größer als der Anteil von 
1,6 % der Zellen in kühler Frühlings- oder Herbstluft unter 0 °C. Insbesonde- 
re in warmer Luft finden sich Zellobjekte für einen weiten Wertebereich des 
IWV von etwa 20—45kgm~? (vgl. auch Abbildung 5.10a). Insgesamt treten 
konvektive Zellen für einen festen Wert von Tgsonpa bevorzugt bei hohen Wer- 
ten des IWV auf. 

Die zeitliche Variabilität der Umgebungsvariablen während des Lebenszy- 
klus der Zellobjekte im Datensatz ist in den meisten Fällen sehr gering (Ab- 


bildung 5.10b). Vergleicht man die jeweiligen Variabilitäten während eines 
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(a) Abstandsgewichtete Mittelwerte verschiedener Variablen in der Zell- 
umgebung, zusätzlich zeitlich über den jeweiligen Lebenszyklus der Zell- 
objekte gemittelt (38553 Objekte). 
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(b) Wie (a), nur wird statt des zeitlichen Mittels die entsprechende zeitliche 
Standardabweichung betrachtet (38 553 Objekte). 


CAPE_MU_wm LR_855_wm SLI_wm HZEROCL wm ` IWV_wm DS wm SRH_03_wm 


(c) Wie (b), nur mit einer Beschränkung der Stichprobe auf Zellobjekte mit 
einer Lebensdauer von mehr als 60 min (1 096 Objekte). 


Abbildung 5.10: Häufigkeitsverteilungen einer Auswahl atmosphärischer Variablen: 
CAPEwmu (Jkg~!), LRgso—soonpa (Kkm~!), SLI (K), 0°C-Grenze (m), IWV (kgm°?), 
DLS (ms~!), SRHo_3km (m? s”2). Der Interquartilsbereich ist durch Boxen, der Median durch 
die gelbe Linie und das arithmetische Mittel durch einen gelben Stern hervorgehoben. Die 
Kerndichteschätzung der Verteilung nach Parzen (1962) verwendet einen Gaußkern. 
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T_850_wm (°C) 
o 8 


W_MAX_wm (m s?) 


Anzahl von Zellobjekten 


Anzahl von Zellobjekten 
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(a) Kombination DLS und Wyax (b) Kombination IWV und Tgsohpa (wm) 
Abbildung 5.11: Kombinierte Häufigkeitsverteilungen für die Umgebungsbedingungen aller 
38553 Zellobjekte (a) für die Kombination DLS und Wmax und (b) die Kombination IWV und 


TgsohPa (wm). Wertebereiche mit weniger als zehn zugeordneten Zellobjekten sind transparent 
dargestellt. 


Lebenszyklus (ausgedrückt durch die Standardabweichung der Werte von al- 
len jeweiligen Detektionszeitpunkten der Zellobjekte) mit der Variabilität der 
Mittelwerte im Datensatz (also der Standardabweichung der Werte aus Ab- 
bildung 5.10a), so liegt das Verhältnis aus diesen beiden Größen meist unter 
0,1. Allerdings stellt der Großteil der Zellobjekte kurzlebige konvektive Zel- 
len dar. Je höher die Lebensdauer ist, desto größer ist die Variabilität während 
des Lebenszyklus für viele der Umgebungsvariablen (Abbildung 5.10c). Da- 
bei liegt für einige Variablen wie die CAPEwu, den SLI und die SRHo_3km 
das Verhältnis aus der Variabilität während des Lebenszyklus und der Variabi- 
lität der Mittelwerte im Datensatz für einige Zellobjekte bei mehr als 0,5. Hier 
treten also recht große Variabilitäten der Umgebungsvariablen über einen Le- 
benszyklus der Zellobjekte auf (im Vergleich zur generellen Variabilität der 
Mittelwerte im Datensatz, s.o.), die mit der Veränderung der Umgebungs- 
bedingungen durch die Modelldynamik und -physik bzw. durch die Assi- 
milation zusammenhängen (vgl. Kapitel 4.2). Dieselben Schlüsse lassen sich 
ziehen, wenn man für das Mittel in der Zellumgebung statt dem abstandsge- 


wichteten das arithmetische Mittel oder den Median verwendet. Das Ergebnis 
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zur höheren Variabilität einiger Umgebungsvariablen während des Lebens- 
zyklus unterscheidet sich dabei von anderen Studien (vgl. Sun et al., 2014; 
Zöbisch et al., 2020). Die höhere Variabilität ist aufgrund der Größe des Um- 
gebungsradius von meist 27 und 32km bei der Zusammenführung der Da- 
ten (vgl. Kapitel 4.3.4) möglicherweise darauf zurückzuführen, dass die be- 
troffenen Variablen auf einer kleinen räumlichen Skala in der Größenordnung 
des Umgebungsradius variieren. Bei einigen thermodynamischen Größen wie 
z.B. dem LI oder der CAPE kommt zusätzlich die Sensitivität ihrer Werte 
bezüglich der Temperatur- und Feuchtewerte in den untersten Troposphären- 
schichten hinzu. Diese wirken sich auf die Höhe des HKN und damit auf 
die Stabilität der Luftschichtung aus (Lee, 2002; Miller und Mote, 2018). Die 
folgenden Analysen verwenden dennoch zur Reduzierung der Dimension nur 
einen für den Lebenszyklus jedes Zellobjekts repräsentativen Wert für die 
Umgebungsvariablen (z.B. den Mittelwert des Lebenszyklus oder den Wert 
zum Zeitpunkt der ersten Detektion). 

Die Umgebungsbedingungen, die während des Auftretens konvektiver Zellen 
vorherrschen, können auch räumlich variabel sein. Da in der vorliegenden Ar- 
beit Zellen von April bis September in die Analysen eingehen, schwankt bei- 
spielsweise die 0 °C-Grenze zwischen 2 000 und mehr als 4000 m, wobei die 
Zellobjekte im Südosten des Lands prinzipiell höhere Werten aufweisen als 
im Nordwesten (Abbildung 5.12b). Dies lässt sich hauptsächlich auf die ge- 
nerelle mittlere Luftmassenverteilung im Sommerhalbjahr über Deutschland 
zurückführen, die z.B. durch einen Gradienten der 850 hPa Temperatur von 
Nord(west) nach Süd(ost) charakterisiert ist (Abbildung D.3). Viele Umge- 
bungsvariablen wie z. B. der SLI, der IWV oder die DLS zeigen keinen groß- 
skaligen horizontalen Gradienten (Abbildungen 5.12a,c,d). Die Werte des SLI 
liegen, bis auf den Nordwesten des Lands, meist um OK oder leicht im ne- 
gativen Bereich. Die Werte der DLS lassen gar keinen großskaligen Gradi- 
enten erkennen und variieren zwischen moderaten Werten von 10-20 ms. 


Die Werte des IWV sind insbesondere im äußersten Süden im Bereich des 
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(a) SLI (K) 


53°N 


(©) IWV (kam (d) DLS (ms~!) 


Abbildung 5.12: Räumliche Verteilung der mit den Zellobjekten assoziierten Umgebungsbedin- 
gungen im Untersuchungszeitraum der Sommerhalbjahre 2011 — 2016, beispielhaft für (a) den 
SLI, (b) die 0°C-Grenze, (c) den IWV und (d) die DLS. Ähnlich zu Abbildung 5.la wird für 
jeden Gitterpunkt eines 1 x 1 km?-Gitters der Mittelwert einer Umgebungsvariablen über all 
diejenigen Zellobjekte bestimmt, deren Polygone den Gitterpunkt einschließen. Jedes Polygon 
enthält dabei einen festen Wert für jede Umgebungsvariable, und zwar den abstandsgewichteten 
Mittelwert der Variablen in der Zellumgebung, zusätzlich zeitlich über den jeweiligen Lebenszy- 
klus der Zellobjekte gemittelt (vgl. Abbildung 5.10a). Um der geringen Objektanzahl Rechnung 
zu tragen, erfolgt abschließend eine Glättung des so bestimmten Felds über 7 x 7 Gitterpunkte. 
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höher gelegenen Alpenvorlands, des Schwarzwalds, der Baar und der Schwä- 
bischen Alb mit 20—30 kg m~? tendenziell etwas niedriger als im Rest des 
Lands. Da die Anzahl von Zellobjekten pro Gitterpunkt meist zwischen 5 
und 25 liegt (vgl. Abbildung 5.1a), dürfen regionale Unterschiede in den Wer- 
ten der Umgebungsvariablen auf räumlichen Skalen der Größenordnung von 
@(100km) nicht überinterpretiert werden. 


5.2.2 Korrelationsanalyse und Clustering der 
Umgebungsvariablen 


Die Kombination der Lebenszyklen der Zellobjekte mit den Umgebungsva- 
riablen ermöglicht eine objektbasierte Untersuchung der Korrelationen je- 
weils zweier unterschiedlicher atmosphärischer Variablen. Basierend auf dem 
Wissen über die meteorologischen und statistischen Zusammenhänge aus 
den folgenden Abschnitten können in Kapitel 6 bessere Entscheidungen für 
durchzuführende Modellstudien getroffen werden. Als Übersicht über ver- 
schiedene paarweise Korrelationen dient die symmetrische und positiv semi- 
definite Korrelationsmatrix (vgl. Kapitel 3.1), wobei in Abbildung 5.13 die 
Rangkorrelationen nach Spearman (rs) dargestellt sind. Werte des (linearen) 
Korrelationskoeffizienten nach Pearson rp sind meist nur geringfügig klei- 
ner (nicht gezeigt). Deutliche Unterschiede zwischen den beiden Korrelati- 
onskoeffizienten treten bei Korrelationen mit Variablen auf, deren Verteilun- 
gen eine große Schiefe haben, z.B. bei Korrelationen mit der BRNmu, der 
CAPEyuu oder dem SCP. Aufgrund der großen Stichprobe (N = 38 553) sind 
die meisten Korrelationen statistisch signifikant. Über die (lineare) Haupt- 
komponentenanalyse (Kapitel 3.1.2) können statistische Zusammenhänge 
zweier Variablen veranschaulicht werden. 

Wie erwartet, zeigt der Betrag des Spearman’schen Korrelationskoeffizien- 
ten rs jeweils zwischen zwei dynamischen oder zwei thermodynamischen 
Größen häufig hohe Werte. Die erste Komponente der Hauptkomponenten- 


analyse zwischen der SRHo_3km und der DLS erklärt bereits mehr als 77 % 
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Abbildung 5.13: Korrelationsmatrix des Spearman’schen Rang-Korrelationskoeffizienten rg für 
eine Auswahl von Umgebungsvariablen. Zur Erläuterung der verwendeten Abkürzungen sei auf 
Tabelle E.1 verwiesen. Hohe (Anti-)Korrelationen sind in kräftigen Farbtönen dargestellt (rot: 
rs > 0, blau: rs < 0), niedrige in blassen. Korrelationen über 0,5 sind zusätzlich als Zahlenwer- 
te eingetragen (%). Statistisch insignifikante Korrelationen sind durch ein Kreuz markiert (Si- 
gnifikanzniveau p = 0,01). Die Akronyme der Umgebungsvariablen sind wie folgt eingefärbt: 
dynamische Größen (rot), thermodynamische Größen und Grenzhöhen (schwarz), reine Feuch- 
tegrößen (ocker), kombinierte Kenngrößen (blau), 500 hPa Geopotential (grün). 


der Gesamtstreuung bei rp = 0,52 und rs = 0,62 (Abbildung D.4a). Noch stär- 
ker korreliert die DLS jedoch mit dem mittleren mitteltroposphärischen Hori- 
zontalwind, beispielsweise mit dem mittleren Wind zwischen 3 und 6 km Hö- 
he U3—6km (rs = 0,87). Diese hohe Korrelation spiegelt wider, dass der Wert 
der DLS maßgeblich durch den Betrag des Winds in 6km Höhe bestimmt 
ist. Die paarweisen Korrelationen zwischen den verschiedenen Varianten der 
SRH sind ebenfalls hoch, auch zwischen SRHo—1km und SRHọo-3km. Eine 
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mögliche Interpretation ist, dass bereits im untersten Kilometer über Grund 
häufig eine merkliche Richtungsscherung vorherrscht, welche entscheidend 
für die Verfügbarkeit von Streamwise Vorticity ist (vgl. Kapitel 2.2.3). 

Die erste Komponente der Hauptkomponentenanalyse zwischen Wmax und 
dem LI oonpa erklärt mehr als 90 % der Gesamtstreuung bei rp = —0,81 (Ab- 
bildung D.4b). Zudem korreliert der Llioohpa stark mit weiteren thermody- 
namischen Größen, welche die thermische Instabilität beschreiben, wie dem 
SI (rs = 0,74), dem KO-Index (rs = 0,67) oder Aps (rs = 0,76). Die Stärke 
des statistischen Zusammenhangs unterscheidet sich dabei teilweise von den 
Ergebnissen basierend auf Radiosondendaten von Mohr und Kunz (2013). 
Dies könnte damit zusammenhängen, dass dort zur Berechnung konvektiver 
Indizes die Radiosondenmessungen um 12 UTC verwendet wurden, während 
in die vorliegenden Korrelationsanalyse Werte zum jeweiligen Detektions- 
zeitpunkt im unmittelbaren Umfeld einer konvektiven Zelle eingehen. Allge- 
mein treten hohe Korrelationen zwischen zwei Stabilitätsmaßen unabhängig 
von der Art der Instabilität auf, die sie beschreiben (bedingte, latente, poten- 
tielle Instabilität; vgl. Kapitel 2.1.2). 

Der kombinierte Index SCP, der sich allgemein multiplikativ aus der 
CAPEmu, der DLS und der SRHo-3km zusammensetzt, korreliert mehr mit 
dynamischen Größen, während der SHIP, in den als einzige dynamische Grö- 
De die DLS eingeht (vgl. Kapitel 2.3), verstärkt mit thermodynamischen Grö- 
Den korreliert. Die BRNyu (vgl. Kapitel 2.2.2) wiederum ist mehr von der 
mitteltroposphärischen Dynamik als der Thermodynamik geprägt, wie die 
hohen Korrelationen mit der vertikalen Windscherung und den mittleren Win- 
den andeuten. 

Eine niedrige Korrelation zeigt sich beispielsweise zwischen LJjo0hPa 
und DLS (rs = 0,15, rp = 0,19), welche den meteorologisch plausiblen 
geringen Zusammenhang zwischen vertikaler Windscherung und thermi- 


scher Instabilität widerspiegelt. Die 30-Ellipse (vgl. Kapitel 3.1.2) in der 


214 


5.2 Analyse der Umgebungsbedingungen 


Hauptkomponentenanalyse dieser beiden Umgebungsvariablen ist daher der 
Form eines Kreises recht nahe (Abbildung D.4c). 


Um ein objektives, detailliertes Bild über miteinander korrelierende Varia- 
blen zu erhalten, findet ein k-Medoids-Clustering Anwendung (Kapitel 3.2). 
Als Distanzmaß dient dc = 1 — |rs 


, d.h. stark (anti-)korrelierende Varia- 
blen haben in dieser Metrik einen geringen Abstand zueinander (niedrige 
Dissimilation; z.B. Van der Laan et al., 2003). Für eine Anzahl von Nc = 3 
Clustern (Abbildung 5.14a) findet der PAM-Algorithmus einen dynamischen 
Cluster mit U3_gkm als Medoid bei einem mittleren Silhouettenkoeffizien- 
ten von 5; = 0,55 (mittlere Strukturierung). Dieser Cluster befindet sich bei 
negativen Werten der ersten Hauptachse des mittels multidimensionaler Ska- 
lierung geschätzten Raums (vgl. Kapitel 3.2). Der zweite und dritte Cluster 
setzen sich aus thermodynamischen und Feuchtegrößen zusammen, mit dem 
DClioohpa und dem Vertical Totals (VT) als Medoiden und nur geringer Struk- 
turierung (52 = 0,38; 53 = 0,24). Der eine befindet sich bei positiven Werten 
der ersten Hauptachse, während sich der andere von ihm und dem dynami- 
schen Cluster im Beitrag der zweiten Hauptachse maßgeblich unterscheidet. 
Alle 33 einzelnen Silhouetten sa sind positiv, sodass von einem erfolgrei- 
chen Clustering gesprochen werden kann. 

Für Nc = 6 Cluster erfolgt eine Aufteilung des Clusters, der sich aus dyna- 
mischen Größen zusammensetzt, in die drei SRH-Variablen und die übrigen 
dynamischen Umgebungsvariablen (Abbildung 5.14b). Zudem erfolgt eine 
Separation zweier weiterer kleiner thermodynamischer Cluster: Der eine be- 
steht hauptsächlich aus Variablen, welche die atmosphärische Stabilität be- 
schreiben, den anderen bilden die CINyy und das NFKyu, welche auch phy- 
sikalisch direkt miteinander assoziiert sind (vgl. Kapitel 2.1.2). Die mittleren 
Silhouettenkoeffizienten variieren zwischen ze = 0,16 und 53 = 0,65 (sehr ge- 
ringe bis mittlere Strukturierung). Die Silhouetten von vier Variablen im gro- 
ßen thermodynamischen Cluster sind allerdings leicht negativ und könnten 


demnach auch dem thermodynamischen Cluster um die CAPEmy zugeordnet 
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DCT 00hPa und VT DCI;o0hPa und VT, CAPEyu; SRHọo-—1 5km und 
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Abbildung 5.14: Darstellung der (a) drei und (b) sechs verschiedenen Cluster von Umgebungs- 
variablen, die ein k-Medoids-Clusterverfahren identifiziert. Als Distanzmaß dient dc = 1 — |rs]. 
Dargestellt ist die Projektion der Cluster auf die ersten beiden Hauptachsen des hochdimensiona- 
len Eigenschaftsraums. Die erste Hauptachse erklärt 52,1 %, die zweite 15,7 % der beobachteten 
Variabilität. 


werden. Die Auftrennung ist hier folglich nicht so eindeutig wie die des dy- 
namischen Clusters. Der Silhouettenkoeffizient über den gesamten Datensatz 
S ist für Nc = 3 mit $ = 0,42 etwas höher als für Nc = 6 mit $ = 0,37. Für 
Nc € [2; 10] erreicht Nc = 3 den höchsten Wert und stellt damit die beste 
Strukturierung des Datensatzes dar. 

Führt man ein k-Medoids-Clustering mit weiteren Umgebungsvariablen 
durch, findet man beispielsweise, dass auch andere Lapse Rates, die relative 
Luftfeuchtigkeit auf anderen Niveaus und der Total Totals (TT) einem Cluster 
um den VT zugeordnet würden. Eine weitere Erhöhung der Anzahl von Clus- 
tern Nc separiert im dynamischen Cluster nieder- und mitteltroposphärische 
Größen. Das diskutierte Clustering bedeutet nicht, eine optimale Zuordnung 


getroffen zu haben. Vielmehr gibt die Korrelations- und Clusteranalyse einen 
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anschaulichen und objektiven Uberblick iiber den Zusammenhang verschie- 
dener Umgebungsvariablen. Darüber hinaus ist sie für die Auswahl der Prä- 
diktoren bei den Untersuchungen von Vorhersageverfahren für die Lebens- 
dauer oder die maximale Fläche konvektiver Zellen nützlich (s. Kapitel 6.1.1, 
6.3 und 6.4). 


5.3 Einfluss von Umgebungsbedingungen auf 
Zellattribute 


5.3.1 Univariate Analysen 


Unterscheidungsvermögen der Umgebungsvariablen 


Das Unterscheidungsvermögen (Discrimination) der Umgebungsvariablen 
hinsichtlich unterschiedlicher Werte für die Lebensdauer oder maximale Flä- 
che der Zellobjekte (Zellattribute) wird mit Hilfe von Häufigkeitsverteilun- 
gen untersucht. Mittels der Kerndichteschätzung nach Parzen (1962) un- 
ter Verwendung eines Gaußkerns erfolgt eine Schätzung der Verteilungs- 
funktionen der Umgebungsvariablen für unterschiedliche Gruppen von Zell- 
objekten, welche anschließend verglichen werden. Zum Vergleich zweier 
Verteilungsfunktionen ist deren Überlappung bzw. Overlap (OLP) als An- 
teil der sich überlagernden Flächen unter den Graphen nützlich, oder der 
Unterscheidungsfaktor bzw. Discrimination Factor (DIS), welcher durch 
DIS = 1 — OLP gegeben ist. Zusätzlich werden weitere Unterscheidungsmaße 
zwischen zwei Verteilungsfunktionen verwendet, beispielsweise die maxima- 
le True Skill Statistic (T SS) oder der maximale Critical Success Index (CST, 
vgl. Tabelle 3.2; z. B. Czernecki et al., 2019). Dabei wird iterativ für verschie- 
dene Variablentrennwerte (Cutting Points; z.B. 100 verschiedene im Werte- 
bereich) der jeweilige Score bestimmt, womit durch einen Wertevergleich der 
maximale Score für einen optimalen Variablentrennwert identifiziert wird. Ei- 
ne Untersuchung der Sensitivität der Scores bezüglich der Anzahl von Varia- 


blentrennwerten folgt weiter unten in diesem Kapitel. 
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Aufgrund der Schiefe des Datensatzes beziiglich der Zellattribute ist es wich- 
tig zu berücksichtigen, dass dieses Ungleichgewicht den CST beeinflusst, die 
TSS per definitionem hingegen nicht, weswegen beide Gütemaße betrachtet 
werden. Die Trefferrate (H) und die Fehlalarmrate (F) geben in diesem Fall 
den Anteil der Zellobjekte der jeweiligen Gruppe an, der sich rechts (links) 
des optimalen Trennwerts einer zum Zellattribut proportionalen (antipropor- 
tionalen) Umgebungsvariablen befindet. Die TSS entspricht wie üblich deren 
Differenz von Treffer- und Fehlalarmrate. Der CSI bestimmt sich als Anteil 
der korrekten Zuordnungen der Gruppe mit hohen Werten für die Zellattribu- 
te an allen Zuordnungen bis auf die korrekten Zuordnungen der Gruppe mit 
niedrigen Werten für die Zellattribute. 

Die folgenden Analysen zum Unterscheidungsvermögen beschränken sich 
auf zwei Gruppen an Zellobjekten, beispielsweise die Fähigkeit einer 
Umgebungsvariablen zwischen Zellen mit kurzer und langer Lebensdauer 
zu unterscheiden*. Die Resultate sind inhärent abhängig von der Wahl der 
Klassentrennwerte (vgl. Kapitel 3.6.1) zwischen den zwei Gruppen für die 
Lebensdauer (Klassentrennwert T) bzw. die maximale Zellfläche (Klas- 
sentrennwert X). Deswegen folgt im Anschluss eine kurze Diskussion der 


diesbezüglichen Sensitivität. 


Unterscheidungsvermögen in Bezug auf die Lebensdauer 

Für alle 83 berechneten Umgebungsvariablen werden mit allen neun 
unterschiedlichen statistischen Maßen aus der Statistik der Zellumge- 
bung (vgl.Kapitel 4.3.4) für zwei Lebensdauer-Gruppen (kurz/lang) 


mit verschiedenen Klassentrennwerten der Lebensdauer Tt mehrere 


4 Aufgrund der Schiefe der Verteilung der Lebensdauer im Datensatz unterscheiden sich bei drei 
oder mehr Gruppen die Verteilungen der Umgebungsvariablen in der Gruppe der Zellobjekte 
mit der kürzesten Lebensdauer kaum von derjenigen, die man bei lediglich zwei Gruppen 
erhält. 
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Scores berechnet. Zur Reduzierung der sehr groBen Anzahl von Varia- 
blen (9 - 83 = 747) erfolgt eine absteigende Sortierung nach den Werten 
für die TSS. Alle Größen, die eine TSS < 0,1 für t = 100 min aufweisen, 
werden aussortiert. Dieses Entscheidungskriterium resultiert aus vielen 
Untersuchungen mit verschiedenen Klassentrennwerten und dem Ziel, eine 
adäquate Anzahl von Umgebungsvariablen für die weiteren Analysen zu 
verwenden. Erreichen mehrere statistische Maße einer Variablen (z.B. der 
arithmetische Mittelwert und das Minimum der Variablen in der Zellumge- 
bung) TSS > 0,1, so wird lediglich diejenige Größe beibehalten, welche die 
höhere TSS aufweist (vgl. Kapitel 4.3.4). Für fast alle Variablen korrelieren 
die statistischen Maße aus der Umgebungsstatistik sehr stark (nicht gezeigt) 
und decken somit den gleichen Gehalt an Information ab. Basierend auf 
der Anwendung dieser Auswahlkriterien ergeben sich 28 verbleibende 
Variablen. Diese werden um fünf weitere Variablen ergänzt: HKNyuv, 
Af, IWV, Tgsonpa (sdam) und 6. gsonpa (sdam). Die Hinzunahme der 
ersten drei Variablen ist in physikalischen Uberlegungen begriindet, um 
die Diversität der Auswahl zu erhöhen, obwohl deren TSS < 0,1 ist. Die 
letzten beiden weisen eine TSS > 0,1 auf und korrelieren kaum mit der 
ausgewählten Tgsonpa (max) bzw. @ps,850hPa (max) oder anderen Größen der 
Auswahl (vgl. Abbildung 5.13). Aus meteorologischer Sicht können beide 


Größen ein Indikator für scharfe Luftmassengrenzen sein. 


Die höchsten TSS-Werte erreichen fast ausschließlich dynamische Varia- 
blen (Tabelle 5.1). Die CS/-Werte sind bei der Wahl eines hohen Klassen- 
trennwerts von T = 100 mm generell sehr niedrig, da es absolut gesehen 
viel mehr falsche Zuordnungen von Zellobjekten mit kurzer Lebensdauer 
gibt (38 335 Objekte mit einer kurzen Lebensdauer von weniger als 100 min 
verglichen mit 218 mit einer langen Lebensdauer von mehr als 100 min). 
Im Hinblick auf das Unterscheidungsvermögen erreicht der SCP die höchste 
TSS, die DLS liegt auf Rang 3 und die SRHp_3«m auf Rang 6. Exempla- 


risch sind die DLS-Werte von etwa 89 % aller Zellobjekte mit einer langen 
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Lebensdauer höher als der Variablentrennwert DLS > 10,5 ms” 1 der zu obi- 
ger TSS führt (Abbildung 5.15a). Damit liegt die Trefferrate für ein langle- 
biges Zellobjekt bei DLS-Werten, die größer als dieser Variablentrennwert 
sind, bei H = 0,89. Gleichzeitig liegen die DLS-Werte von etwa 55 % al- 
ler Zellobjekte mit einer kurzen Lebensdauer höher als der Variablentrenn- 
wert DLS > 10,5ms~!, was F = 0,55 und damit gerundet T SS= 0,35 bedeu- 
tet. Des Weiteren rangieren Tg50hpa (sdam), RH7oonpa und der LIjoonpa bei- 
spielsweise auf den Plätzen 10, 14 und 18. Die Werte der TSS sind insgesamt 
denen des Unterscheidungsfaktors DIS sehr ähnlich. Bei Variablen mit ei- 
ner scharfen Begrenzung des Wertebereichs und einer starken Schiefe hin zu 
dieser Begrenzung (z. B. 0 bei dem SCP, der BRN und dem SHIP) führt die 
implementierte Berechnungsmethodik für den OLP und die DIS auf Basis der 
Kerndichteschätzung zu wenig sinnvollen Werten, weswegen diese Gütemaße 
für solche Umgebungsvariablen nicht betrachtet werden (Tabelle 5.1). 
Allerdings erreicht keine der Umgebungsvariablen eine trennscharfe Unter- 
scheidung (Abbildung 5.15). Die Dominanz der dynamischen Variablen lässt 
darauf schließen, dass diese aufgrund ihres Einflusses auf die Organisations- 
form von konvektiven Zellen (vgl. Kapitel 2.2) das beste Unterscheidungsver- 
mögen bezüglich der Lebensdauer besitzen. Auch die mitteltroposphärische 
Feuchte RH700hpa sowie einige thermodynamische Variablen wie z.B. der 
KO-Index, die statistisch nur schwach mit dynamischen Variablen zusam- 
menhängen (vgl. Kapitel 5.2.2), weisen maximal als mäßig gut einzuordnen- 
de Werte der Gütemaße auf (im Vergleich zu den Werten der dynamischen 
Variablen). Allerdings liegt die Vermutung nahe, dass eine Kombination von 
mehreren Umgebungsvariablen in der Lage sein könnte noch bessere Unter- 
scheidungen vorzunehmen (s. Kapitel 5.3.2 und 6). 

Wendet man dieselbe Technik statt auf Umgebungsvariablen auf die 
Zellfläche zum Zeitpunkt der dritten oder vierten Detektion an, so erhält 
man TSS = 0,31 bzw. TSS = 0,30 mit den optimalen Variablentrennwer- 
ten Az(t = 12min) = 25,5km? und Az(t = 17min) = 29,3 km? (nicht 


gezeigt). Die besten sechs Umgebungsvariablen haben somit ein besseres 
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Abbildung 5.15: Vergleich der Verteilungsfunktionen aus der Kerndichteschätzung von 38553 
Zellobjekten mit kurzer (rot; 38335) und langer (blau; 218) Lebensdauer (Klassentrennwert 
der Lebensdauer: T = 100 min) für sechs verschiedene Umgebungsvariablen. Die vertikale 
durchgezogene Linie illustriert den optimalen Variablentrennwert basierend auf der TSS, die 
gestrichelte denjenigen, der den höchsten CS/-Wert hervorbringt. Die Verteilungsfunktion aus 
der Kerndichteschätzung ist so normiert, dass die Fläche unter dem Graphen | ergibt, sodass ihre 
Funktionswerte einheitenabhängig sind. 
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Unterscheidungsvermögen als die Zellflache zum Zeitpunkt 10 oder 15 min 
nach der ersten Detektion, zumindest fiir einen hohen Klassentrennwert 
von T = 100 min. Für niedrigere Werte von T unter etwa 80—85 min haben 
die dynamischen Variablen ein niedrigeres Unterscheidungsvermögen als 
die Zellfläche zum Zeitpunkt 10 oder 15 min nach der ersten Detektion. 
Dies deutet insgesamt darauf hin, dass man rein anhand der Umge- 
bungsbedingungen die Lebensdauer einer konvektiven Zelle ähnlich gut 
abschätzen kann wie mit Hilfe des Wissens über das anfängliche Wachstum 
der Zelle. Die Berücksichtigung einiger Umgebungsvariablen in einem 
Vorhersageverfahren für das Nowcasting — zusätzlich zu dem Wissen über 
den Verlauf der Zellattribute — könnte daher gewinnbringend sein, wie in 


späteren Modellstudien untersucht wird (Kapitel 6.3). 


Unterscheidungsvermögen in Bezug auf die maximale Zellfläche 

Im Gegensatz zur Lebensdauer erreichen bei der Unterscheidung von klei- 
nen und großen maximalen Zellflächen (beispielhafter Klassentrennwert: 
X = 80km?; 38 264 kleine, 289 große Zellobjekte) thermodynamische Pa- 
rameter die höchsten TSS-Werte (Tabelle 5.2). Qualitativ ändert sich die 
Reihenfolge der Umgebungsvariablen bei der Verwendung anderer Klassen- 
trennwerte kaum. Besonders die konvektiven Indizes zur Beschreibung der 
Instabilität zeigen das beste Unterscheidungsvermögen, wie der DClIjoohPa 
auf Platz 2, mit ihm in Verbindung stehend der LI;oonpa auf Platz 4 oder der 
KO-Index auf Platz 6. Höhere Instabilitätswerte deuten auf ein höheres Maß 
an freier Konvektion hin, welches ein schnelleres Wachstum konvektiver Zel- 
len begünstigt. Aber auch die vertikale Windscherung in Form der DLS weist 
ein gewisses Unterscheidungsvermögen auf. Insgesamt sind die TSS-Werte 
bei einer ähnlichen Anzahl von Zellobjekten in den beiden Gruppen etwas 
geringer als bei der Unterscheidung der Lebensdauer. 

Die Zellflachen 10 und 15 min nach der ersten Detektion weisen sehr hohe 
Werte von TSS = 0,61 bzw. TSS = 0,67 mit den optimalen Variablentrenn- 
werten Az(t = 12min) = 34,6 km? und Az(t = 17 min) = 41,0 km? auf (nicht 
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Lebensdauer maximale Zellfläche 


Abbildung 5.16: Darstellung verschiedener Gütemaße für das Unterscheidungsvermögen zwi- 
schen Zellobjekten unterschiedlicher Lebensdauer bzw. maximaler Zellfläche aus einer Statistik 
von 33 Umgebungsvariablen in Abhängigkeit vom Klassentrennwert (a) der Lebensdauer Tz 
bzw. (b) der maximalen Zellfläche Az max. 


gezeigt). Mehr als 75% der großen Zellobjekte haben größere Zellflächen 
zu diesen Zeitpunkten des Lebenszyklus, jedoch lediglich 10-15 % der 
kleineren Zellobjekte, die maximal 80km? in ihrem Lebenszyklus groß 
werden. Dies bedeutet im Umkehrschluss, dass ein Zellobjekt bereits 
zu Beginn stark wachsen sollte, um eine große Fläche im Laufe des 
Lebenszyklus zu erreichen. Bereits in den Abbildungen 5.6 und 5.9 wurde 
ebenfalls deutlich, dass ein intensives anfängliches Wachstum auf eine große 


Zellfläche und zusätzlich auf eine lange Lebensdauer hindeutet. 


Qualitativ ändern sich die gezeigten Ergebnisse bezüglich des Un- 
terscheidungsvermögens der Umgebungsvariablen kaum für verschiede- 
ne Klassentrennwerte der Lebensdauer oder der maximalen Zellflä- 
che (t € [15; 120] min bzw. x € [20; 90] km?). Je niedriger dieser Klassen- 
trennwert ist, desto geringer ist auch das Mittel oder der Median der TSS für 
die 33 untersuchten Variablen (Abbildung 5.16). Dieses Ergebnis lässt sich 


auch auf einen größeren Satz von Variablen erweitern. Der Anstieg der TSS 
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Abbildung 5.17: Relativer Unterschied der maximalen TSS fiir unterschiedliche Anzahlen 
von ausgetesteten Variablentrennwerten im Wertebereich der Umgebungsvariablen am Beispiel 
der 33 ausgewählten Umgebungsvariablen fiir einen Klassentrennwert der Lebensdauer von 
t = 100 min, bezüglich der maximalen TAS aus 1 000 ausgetesteten Trennwerten (,,wahre“ TSS). 


lässt sich hauptsächlich durch einen Anstieg von H mit steigendem Klassen- 
trennwert erklären, während F näherungsweise konstant bleibt. Der optimale 
Variablentrennwert ändert sich insgesamt nur wenig (nicht gezeigt). 

Beispielsweise verschiebt sich für die DLS anschaulich gesprochen die Ver- 
teilung der Zellobjekte mit kurzer Lebensdauer (rote Verteilung in Abbil- 
dung 5.15a) bei steigendem Klassentrennwert kaum nach links hin zu klei- 
neren DLS-Werten, während die Verteilung der Objekte mit langer Lebens- 
dauer (blau) — deren Anzahl bei steigendem Klassentrennwert stetig abnimmt 
— merklich nach rechts wandert. Der optimale Variablentrennwert in Bezug 
auf die TSS variiert für die DLS nur um O(1ms~'). Umgekehrt sinkt der 
CST mit steigendem Klassentrennwert für die Lebensdauer oder die maxima- 
le Zellfläche aufgrund der Verschiebung der Anteile der Zellobjekte in den 
Gruppen. Die vielen Zellobjekte mit kurzer Lebensdauer rechts des Varia- 


blentrennwerts fallen hier sehr stark ins Gewicht. 
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Zuletzt sei kurz auf die Bestimmung der jeweils optimalen TSS (bzw. CSI) 
eingegangen, welche abhängig von der Anzahl der getesteten Variablentrenn- 
werte ist. Je mehr Trennwerte der Algorithmus testet, umso rechenzeitinten- 
siver gestaltet sich dies für eine große Anzahl von Umgebungsvariablen. Je 
weniger Trennwerte er testet, desto ungenauer wird die Schätzung der maxi- 
malen Scores in der Regel. Zur Untersuchung dieser Abhängigkeit wird für 
die ausgewählten 33 Umgebungsvariablen die Auswirkung unterschiedlich 
hoher Auflösungen der Variablentrennwerte auf die maximale TSS hinsicht- 
lich der oben beschriebenen Unterscheidung von Zellobjekten mit kurzer und 
langer Lebensdauer betrachtet (gemittelt über alle 33 Umgebungsvariablen; 
Klassentrennwert der Lebensdauer: t = 100 min; Abbildung 5.17). Die mitt- 
lere relative Abweichung zwischen den TSS-Werten mit 100 und 1 000 getes- 
teten Trennwerten (Referenz) vom Minimum bis zum Maximum der Umge- 
bungsvariablen beträgt lediglich 3,6 % (ATSS = @(0,01)). Für 1000 Werte 
gilt die Annahme, dass die TSS für den optimalen Variablentrennwert der 
wahren TSS sehr nahe kommt. 100 Trennwerte sind demnach zur adäquaten 


Abschätzung der maximalen Scores ausreichend. 


Erweiterter Parabelansatz 


Eine Verfeinerung des Parabelansatzes nach Gleichung (5.1) für die zeitli- 
che Entwicklung der Zellfläche über den Lebenszyklus (Kapitel 5.1.2) ist 


durch die Hinzunahme eines weiteren Scharparameters, einer Umgebungs- 


(Tzu) — AUS) 


variablen u, möglich. Die minimale Zellfläche Az min Zmin 


& ua ist dabei 
von u nahezu unabhängig, während die Amplitude ./ (Sai in der Regel eine 
Abhängigkeit aufweist. 

Geht man weiterhin von einer linearen Abhängigkeit der Amplitude von der 
Lebensdauer aus, so lässt sich 72) = ca(u)Tz setzen. Die Abhängigkeit 


des Koeffizienten ca von der Umgebungsvariablen u ist dabei noch näher zu 
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bestimmen. Der Ansatz lautet wie folgt: 


(Tzu) TEN? 
(zu) _ AUS) (Tz,u) A Z 
A WEE Kar Wee t d 5.9 

Z ( ) Z,min T (Tz/2)? 2 ( ) 
Exemplarisch sei dieser Ansatz mit dem Lifted Index (Ll oonpa zum Zeitpunkt 
der ersten Detektion) vorgestellt. Je niedriger der Llioonpa ist, desto höher ist 
die latente Instabilität und damit die Möglichkeit für ein schnelles Wachs- 
tum einer Zelle durch freie Konvektion (s.o, Kapitel 2.3). Es lässt sich zu- 


nächst erkennen, dass die mittlere Amplitude .o/ (Tz,LI) 


fiir niedrigere Werte 
des Ll oonpa steigt (Abbildung 5.18). Es zeigt sich ein Unterschied von meist 
2— 10km? zwischen den mittleren Verläufen der Zellfläche von Objekten, die 
bei Llioonpa < — 1 K auftreten, und solchen, die bei LIjoonpa > — 1 K auftreten. 
Die Wahl des Variablentrennwerts von —1 K basiert auf dem in Tabelle 5.2 
gelisteten optimalen Variablentrennwert von —0,9 K. Darüber hinaus findet 
sich bei der Unterscheidung der Werte für die Lebensdauer ein optimaler 
Variablentrennwert von —1,1 K (nicht in Tabelle 5.1 gezeigt). Entsprechend 
wächst die Amplitude zu Beginn des Lebenszyklus bei Objekten, die bei 
Llioonpa < —1 K auftreten, schneller an? Es sei jedoch darauf hingewiesen, 
dass sich die Variationsbereiche (10-Intervalle) der Verläufe von Objekten 
gleicher Lebensdauer für Lomp, < —1 K und Lomp, > —1 K stark über- 
lappen. 

Die Uberlappung der Variationsbereiche spiegelt sich in den Koeffizien- 
ten ca(LI) der linearen Regression (vgl. Kapitel 3.3.1) für verschiedene Wer- 
tebereiche des Llioohpa wider (Abbildung 5.19a). Zur Beschreibung der Ab- 
hängigkeit c4(LI) wird ein linearer Fit verwendet, welcher diese gut reprä- 


sentiert (Abbildung 5.19b). In diesen Fit gehen nur die Intervalle des LI100hPa 


5 Es sei angemerkt, dass die Zellfläche zu Beginn des Lebenszyklus für den Strömungsfeldan- 
satz (vgl. Kapitel 5.1.2) ebenfalls für niedrige Werte des LI;oonp.a (zum Zeitpunkt der ersten 
Detektion) schneller anwächst (nicht diskutiert). 
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(a) Mittlerer Verlauf der Zellfläche Az inklusi- (b) Mittlerer Verlauf der Zellfläche Az inklu- 
ve Variationsbereich für LIjoohpa < —1 K. sive Variationsbereich fiir LI,gonpa > —1 K. 


Abbildung 5.18: Wie Abbildung 5.6b, nur zusammengefasst fiir Zellobjekte, die mit (a) nied- 
rigeren bzw. (b) höheren Werten des LIjoonp. assoziiert werden. Der Wert für den LIioohpa ent- 
spricht demjenigen zum Zeitpunkt der ersten Detektion der Zellobjekte. 


ein, in denen mindestens neun unterschiedliche Werte der Lebensdauer vor- 
kommen, die jeweils von mindestens zehn Zellobjekten erreicht wurden. Zur 
Bestimmung des jeweiligen cą gehen daher nur wenige Zellobjekte mit ei- 
ner langen Lebensdauer von mehr als 60 min ein. Analog zu Gleichung (5.2) 
erhält man folglich allgemein: 


t 
Alto) = ua Haar (1-5) (5.10) 

Z 
Für Tz = 60min ergibt sich nach Gleichung (5.2) beispielsweise ei- 
ne maximale Zellfläche von An. > 39km? (vgl. Abbildung 5.8a). 


In Abhängigkeit vom ` Lomp, findet man mit ca(LI) = (0,336 — 
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0,024 LIjoonpa K7!) km? min“! über Gleichung (5.10) hingegen: 


Llioonpa = 3K — AS?) ~ 37km? 
Lie, = 1K — AS?!) x 40km? 
Lie, = —1K — AË ~ 43km? 
Llioonpa = —3K — AN Jl ~ 46km? 
Lis = -5K — A) ~ 49km?. (5.11) 


Erwartungsgemäß wächst mit steigender Instabilität die Zellflache stärker an. 
Weitere Stabilitätsmaße wie beispielsweise die mitteltroposphärische Lapse 
Rate zeigen ähnliche Möglichkeiten zur Erweiterung des Parabelansatzes auf. 
Hingegen ist eine eindeutige lineare Abhängigkeit des Regressionskoeffizien- 
ten ca von der Windscherung (z. B. DLS oder SRHo_xkm) nicht gegeben, so- 
dass eine Erweiterung des Parabelansatzes mit diesen Variablen nicht sinnvoll 


ist (nicht gezeigt). 


5.3.2 Bivariate Analysen 


Aufbauend auf den univariaten Ergebnissen folgt in diesem Abschnitt eine 
Diskussion der mittleren Lebensdauer sowie der mittleren maximalen Zell- 
fläche der Zellobjekte in Abhängigkeit von einer Kombination aus zwei Um- 
gebungsvariablen. Dazu spannen zwei Variablen einen gemeinsamen Raum 
auf, die nach Abbildung 5.13 möglichst wenig korreliert sind, um redundante 
Informationen zu vermeiden. Dies ist beispielsweise für die DLS und den 
LI;oonpa der Fall, deren (Rang-)Korrelation rs = 0,15 bzw. rp = 0,19 beträgt. 
Die Differenz der mittleren Lebensdauer zwischen den Gruppen mit den 
niedrigsten und den höchsten Werten liegt maximal bei lediglich rund 
10 — 15 min (Abbildung 5.20), während die Standardabweichung im gleichen 
Bereich oder gar etwas höher liegt (Abbildung 5.21a). Der Unterschied der 


mittleren Lebensdauer bei einer Umgebungsvariablen alleine liegt jedoch mit 
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(a) Zur Illustration der Abhängigkeit des (b) Zur Bestimmung der Abhängigkeit des 

linearen Regressionskoeffizienten cą von Regressionskoeffizienten cą von LIoonpa- 

LlIjoonpa für die Amplitude / US. Die Regressionsgleichung lautet (RMSE 
N 0,02km?min™!): ca & (0,336 — 
0,024 LI ,oonpa K7!) km? min™!. 


Abbildung 5.19: (a) Wie Abbildung 5.7a, nur für verschiedene Stichproben von Zellobjekten, 
die mit unterschiedlichen Wertebereichen des LIjoonpa (Farbgebung) assoziiert werden. (b) Ver- 
teilung der linearen Regressionskoeffizienten ca in Abhängigkeit vom LlIjoonpa (Intervalle von 
0,5K). Ein lineares Polynom approximiert wiederum diese Abhängigkeit (rote Linie). Die re- 
lative Häufigkeit von Zellobjekten, die in jedes Intervall fallen, ist als Histogramm hinzuge- 
fügt (0,1 = 10 % = 2331 Objekten). 


maximal 7 — 10 min noch niedriger (nicht gezeigt). Mit steigender mittlerer 
Lebensdauer steigt zudem im bivariaten Fall die Standardabweichung. Das 
Signal-Rausch-Verhältnis ist daher relativ gering. Dies könnte dadurch er- 
klärt werden, dass an Tagen, an denen konvektive Zellen mit einer länge- 
ren Lebensdauer aufgrund besonders konvektionsförderlicher Umgebungsbe- 
dingungen auftreten, sehr häufig weitere Zellen auftreten, die eine weniger 
lange Lebensdauer haben. Dennoch steigt die mittlere Lebensdauer erwar- 
tungsgemäß für die Kombination aus hoher Windscherung und hoher Insta- 
bilität (niedrigem LIhoonpa) an. Des Weiteren befinden sich mehr als 75 % 
der langlebigen Zellen mit mehr als 90 Minuten Lebensdauer in denjenigen 


50 % der Gruppen, welche die höchste mittlere Lebensdauer aufweisen (nicht 


gezeigt). 
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Abbildung 5.20: Mittlere Lebensdauer aller 38553 Zellobjekte gruppiert nach je zwei Umge- 
bungsvariablen in je 20 Intervallen (zum Zeitpunkt der ersten Detektion). Gruppen, in denen 
weniger als zehn Zellobjekte zu finden sind, sind transparent dargestellt. 


Standardabweichung der maximalen Zellfziche (km?) 


LU Au min 
ot o b ò on a 0. 
| l 
st | 
LILAV1_min 


BL 


DLS_am DLS_am 


(a) Standardabweichung der Lebensdauer: (b) Standardabweichung der maximalen 
DLS (ms!) und LIjoohpa (K) Zellfläche: DLS (ms~!) und Llioonpa (K) 


Abbildung 5.21: Wie Abbildung 5.20, nur für die Standardabweichung (a) der Lebensdauer 
und (b) der maximalen Fläche aller Zellobjekte. 
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Eine geringe mitteltroposphärische Feuchte RH7oonpa und ein hoher Gehalt 
an CAPEmu (bzw. eine hohe Wmax) bewirken ebenfalls eine längere Le- 
bensdauer, wobei für hohe Feuchtewerte das Maß an konvektiv verfügbarer 
Energie weniger wichtig ist als für niedrige Feuchtewerte (Abbildung 5.20b). 
Niedrige Werte des KO-Index alleine reichen nicht aus, um im Mittel eine län- 
gere Lebensdauer hervorzubringen. Zusätzlich muss die SRHo_3km deutlich 
größer als 0 m? s7? sein (Abbildung 5.20c). Die Lebensdauer steigt ebenfalls, 
wenn sowohl der DCIjoonpa als auch der SCP hohe Werte erreichen (Abbil- 
dung 5.20d). 

Qualitativ sehr ähnliche Ergebnisse findet man bei der Untersuchung der 
maximalen Zellfläche (Abbildung 5.22). Der Unterschied zwischen den 
verschiedenen Gruppen beträgt etwa 10 — 15km? und die Verteilung ist mit 
derjenigen der Werte für die Lebensdauer annähernd deckungsgleich. Dies 
stimmt mit den Resultaten aus dem Parabelansatz und dem Strömungsfeld- 
ansatz überein, die auf einen klaren Zusammenhang zwischen den beiden 
Zellattributen hinweisen. Die Standardabweichung ist für die maximale 
Zellfläche mit meist weniger als 15 km? ebenfalls hoch (Abbildung 5.21b). 


Ein etwas deutlicheres Signal für beide Zellattribute zeigt sich erst, wenn die 
Analyse Zellobjekte mit sehr niedrigen Werten für die Lebensdauer von we- 
niger als z.B. 30 min nicht berücksichtigt (Abbildung 5.23). Die Differenz 
der mittleren Lebensdauer zwischen den Gruppen mit den niedrigsten und 
den höchsten Werten verdoppelt sich dadurch etwa, was der höheren relati- 
ven Häufigkeit von Zellobjekten mit einer eher längeren Lebensdauer in den 
einzelnen Gruppen geschuldet ist. Wenn sich demnach Zellobjekte unter ge- 
gebenen Umgebungsbedingungen nicht innerhalb einer halben Stunde wieder 
auflösen, erreichen sie bei hoher Instabilität und gleichzeitig hoher Windsche- 
rung im Mittel eine um 20 — 25 min längere Lebensdauer und werden etwa 
20 — 25 km? größer als bei geringer Instabilität und Windscherung. Die DLS 


hat einen stärkeren Einfluss auf die Lebensdauer (Abbildung 5.23a), während 
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Abbildung 5.22: Wie Abbildung 5.20, nur für die mittlere maximale Fläche aller Zellobjekte. 
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Abbildung 5.23: Wie Abbildung 5.20, nur für (a) die mittlere Lebensdauer und (b) die mittlere 
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der Lliooppa stärker die maximale Zellfläche beeinflusst (Abbildung 5.23b), 
was sich mit den Ergebnissen aus den univariaten Analysen in Kapitel 5.3.1 
deckt (Tabellen 5.1 und 5.2). 

Auf die Darstellung und Diskussion von kombinierten Abhängigkeiten von 
mehr als zwei Umgebungsvariablen wird an dieser Stelle verzichtet. Erste 
Untersuchungen mit Kombinationen von drei bis sechs Variablen im Rahmen 
der vorliegenden Arbeit zeigen, dass mit einer Erhöhung der Dimensiona- 
lität des Variablenraums auf drei bis sechs Dimensionen kaum Unterman- 
nigfaltigkeiten auffallen, die gleichzeitig (i) genügend Zellobjekte für eine 
statistische Untersuchung beinhalten und (ii) bedeutend stärkere Signale hin- 
sichtlich der beobachteten Lebensdauer oder maximalen Zellfläche zeigen als 
die bislang diskutierten Ergebnisse. Die Untersuchungen im nachfolgenden 
Kapitel 6 werden daher unter anderem der Fragestellung nachgehen, inwie- 
fern die Kombination von mehreren Variablen in Vorhersageverfahren für die 
Abschätzung der Lebensdauer und der maximalen Zellfläche hilfreich sein 


kann. 
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6 Vorhersageverfahren: Entwicklung 
und Evaluation 


Die Analysen aus Kapitel 5 haben einige statistische Zusammenhänge zwi- 
schen verschiedenen Attributen konvektiver Zellen, wie der Lebensdauer und 
der maximalen Zellflache, und verschiedenen Umgebungsvariablen sowie der 
anfänglichen Zellentwicklung aufgezeigt. In der Folge stellen sich nun meh- 
rere Fragen, beispielsweise wie diese Ergebnisse fiir das Nowcasting kon- 
vektiver Zellen gewinnbringend eingebracht werden könnten. Dabei ist von 
besonderer Relevanz, ob aufgrund der großen Dominanz der Häufigkeiten 
von Zellobjekten mit kurzer Lebensdauer (bzw. kleiner Zellfläche) auf einem 
historischen Datensatz beruhende Vorhersageverfahren überhaupt zwischen 
solchen und Zellobjekten mit langer Lebensdauer (bzw. großer Zellfläche) 
unterscheiden können. Als Erweiterung der uni- und bivariaten Analysen liegt 
zudem die Frage nahe, ob durch die Anwendung von multivariaten Verfahren 
möglicherweise Kombinationen von mehreren atmosphärischen Umgebungs- 
variablen und/oder der anfänglichen Entwicklung der Zellobjekte identifiziert 
werden können, die ein gutes Unterscheidungsvermögen der zu erwartenden 
konvektiven Entwicklungen besitzen. 

Diese Fragen motivierten zu einer eingehenden Beschäftigung mit multivaria- 
ten Verfahren. Drei verschiedene Verfahren der Statistik und des maschinellen 
Lernens, die sich für die vorliegende Arbeit als potentiell geeignet herausstell- 
ten und in den nachfolgenden Kapiteln Verwendung finden werden, wurden 
in den Kapiteln 3.3 und 3.4 bereits ausführlich beschrieben: die logistische 
Regression, der Random Forest und ein nicht-linearer Polynomansatz (mit 


der linearen Regression als eine Art Spezialfall). Diese Verfahren können auf 


237 


6 Vorhersageverfahren: Entwicklung und Evaluation 


der Basis des in Kapitel 5 analysierten kombinierten Datensatzes eine deter- 
ministische oder probabilistische Vorhersage der Lebensdauer oder der ma- 
ximalen Fläche eines Zellobjekts treffen. Die Informationen haben dabei das 
Potential, das probabilistische Lebenszyklusmodell des in Entwicklung be- 
findlichen Zellverfolgungsalgorithmus KONRAD3D (DWD) zu verbessern, 
indem die Schwankungsbreite des Modellensembles insbesondere zu Be- 
ginn der Zellentwicklung besser eingegrenzt werden kann (vgl. Kapitel 5.1.2; 
Feger et al., 2019; Werner, 2020; Wapler, 2021). Zudem könnte es für wei- 
tere Fragestellungen und Anwendungen des Nowcastings nützlich sein, be- 
stimmte Klassen der Zellattribute frühzeitig abschätzen zu können (z. B. kur- 
ze/lange Lebensdauer). Kategorische oder kontinuierliche Abschätzungen 
der Lebensdauer und der Zellfläche sind zudem zur besseren zeitlichen 
bzw. räumlichen Spezifizierung von Warnungen von Relevanz. 

Die oben erwähnten multivariaten Klassifikations- und Regressionsverfahren 
werden im Folgenden in verschiedenen Modellstudien als Vorhersageverfah- 
ren angewendet, die unterschiedliche Kombinationen von Umgebungsvaria- 
blen und/oder Zellattributen als Prädiktoren verwenden (vgl. Abbildung 6.1). 
Kapitel 6.1 beschreibt zunächst die notwendige Datenvorbehandlung, welche 
vor der Anwendung eines Vorhersageverfahrens erfolgen muss, und rekapitu- 
liert einige Besonderheiten des kombinierten Datensatzes, die unter anderem 
in der Evaluation der Verfahren berücksichtigt werden. Anschließend folgt 
mit den zwei Klassifikationsverfahren logistische Regression und Random 
Forest die Diskussion einer ersten Modellstudie mit zwei Prädiktoren, anhand 
derer viele verschiedene Aspekte solcher Verfahren und der entsprechenden 
Evaluation detailliert erläutert werden (Kapitel 6.2). Die Kapitel 6.3 und 6.4 
fassen die Ergebnisse aus vielen weiteren Modellstudien zusammen und ana- 
lysieren und vergleichen das Potential der Verfahren für die Abschätzung der 
Lebensdauer und der maximalen Zelllläche. Darüber hinaus wird die (sta- 
tistische) relative Wichtigkeit der Umgebungsvariablen und Zellattribute als 


Prädiktoren für die Vorhersage diskutiert. 
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6.1 Besonderheiten in der Datenvorbehandlung 
und der Evaluation 


Fiir die Modellstudien, die in der vorliegenden Arbeit vorgestellt werden, 


müssen folgende Eigenschaften und Besonderheiten berücksichtigt werden: 


(i) Die unabhängigen Variablen sind teilweise stark korreliert, insbeson- 


dere einige Umgebungsvariablen (vgl. Kapitel 5.2.2). 


(ii) Die unabhängigen Variablen variieren auf sehr unterschiedlichen Ska- 


len und sind meist nicht normalverteilt (vgl. Kapitel 5.2.1). 


(iii) Der Datensatz weist ein starkes Ungleichgewicht in der Verteilung der 
Werte der ausgewählten abhängigen Variablen auf: der Lebensdauer 


und der maximalen Zellfläche (vgl. Kapitel 5.1.1). 


(iv) In Modellstudien, die mit einem Ensembleansatz durchgeführt werden, 
werden keine einheitlichen Trainings- und Testdatensätze für die Mo- 
dellbildung bzw. die Vorhersagen der Mitglieder innerhalb des Ensem- 
bles verwendet, um die Robustheit der Modelle bezüglich des Daten- 


satzes möglichst genau abzuschätzen (vgl. Kapitel 3.6.1). 


Die genannten Punkte führen dazu, dass sowohl in der Vorbehandlung des 
Datensatzes vor der Modellbildung als auch in der Evaluation nach der An- 
wendung der Modelle einige weitere Schritte vorgenommen werden müssen, 
um eine adäquate Durchführung der Modellstudien und eine entsprechende 


Interpretation der Ergebnisse zu ermöglichen. 
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6.1.1 Datenvorbehandlung zur Anwendung der 
Vorhersageverfahren 


Auswahl der Prädiktoren 


Wie beispielsweise in Wilks (2006) erläutert, ist ein Regressionsverfahren mit 
beliebigen Npo Prädiktoren in der Lage, die Residuen eines Trainingsdaten- 
satzes der Größe Nr, = Npo + 1 verschwinden zu lassen, d.h. einen perfek- 
ten Fit zu generieren. Dies bedeutet jedoch nicht, dass ein perfekt trainiertes 
Modell ebenso gute Vorhersagen für einen unabhängigen Testdatensatz trifft. 
Im Gegenteil: Ein solches Modell ist oftmals viel zu sehr an den zugrunde- 
liegenden Trainingsdatensatz angepasst (Overfitting). Daher ist es sinnvoll, 
bereits im Voraus eine Auswahl von potentiell relevanten unabhängigen Va- 
riablen x zu treffen, die physikalisch mit der gewählten abhängigen Varia- 
blen y in Verbindung stehen. Je größer der zugrunde liegende Datensatz ist, 
desto mehr (voneinander unabhängige) Prädiktoren kann ein Vorhersagever- 
fahren in der Regel sinnvoll miteinbeziehen. In der Praxis helfen jedoch für 
eine (nicht-)lineare Regression mehr als etwa zwölf Prädiktoren selten, die 
Vorhersagen noch weiter zu verbessern (Glahn, 1985). Der Random Forest 
weist hingegen seine Stärken eher mit einer großen Anzahl von Prädiktoren 
auf, vorausgesetzt der Anteil von relevanten Prädiktoren mit einem positiven 
Einfluss auf die Vorhersage ist nicht zu klein (z.B. Hastie et al., 2009). Der 
Grund dafür ist die stärkere Dekorrelation der Entscheidungsbäume aufgrund 
der größeren Verfügbarkeit von potentiellen Kandidaten für das Splitting der 
Äste der Entscheidungsbäume (vgl. Kapitel 3.4.3). 

Ein finales Modell mit einem optimal angepassten Satz von Prädiktoren und 
Modellparametern zu bestimmen, ist nicht Ziel dieser Arbeit. Vielmehr steht 
die Analyse des Vorhersagevermögens der drei verschiedenen multivariaten 
Verfahren sowie der Vergleich ihrer Ergebnisse im Vordergrund. Daher beruht 
die Auswahl der Prädiktoren für die Modellstudien in der vorliegenden Ar- 
beit nicht auf einer statistisch systematischen Vorgehensweise wie der schritt- 


weisen Regression (Wilks, 2006). Um verschiedene Vorhersageverfahren mit 
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demselben Satz von unabhängigen Variablen miteinander vergleichen zu kön- 
nen, erfolgt die Auswahl der Prädiktoren in der vorliegenden Arbeit stattdes- 
sen auf Basis der Analysen in Kapitel 5. Sowohl Umgebungsvariablen als 
auch Zellattribute finden dabei Verwendung. Detaillierte Erläuterungen sind 


jeweils zu Beginn der Beschreibung der Modellstudien angegeben. 


Filterung von Fehlwerten 


Die Aufteilung des kombinierten Datensatzes in Trainings- und Testdaten 
ist für die unabhängige Evaluation der Vorhersageverfahren essentiell. Zuvor 
sortiert der Algorithmus, dessen Struktur sich an der Darstellung in Abbil- 
dung 6.1 orientiert, bereits alle Zellobjekte aus dem Datensatz aus, denen 
der Wert von mindestens einem Prädiktor fehlt (vgl. Kapitel 4.3.4). Beispiels- 
weise kann nicht bei allen Zellobjekten das NFK berechnet und zugewiesen 
werden. In Modellstudien, bei denen Zellattribute zu bestimmten Zeitpunk- 
ten des Lebenszyklus (z.B. die Zellfläche 15 min nach der ersten Detektion) 
als Prädiktoren dienen, sortiert der Algorithmus alle Zellobjekte aus, deren 


Lebensdauer geringer ist als der betrachtete Zeitpunkt. 


Transformation der Werte der Prädiktoren 


Wie in Kapitel 3.5.1 geschildert kann eine mathematische Transformation 
der Werte der Prädiktoren vor der Anwendung eines statistischen Verfahrens 
nützlich sein, dessen Aussagekraft zu steigern. Czernecki et al. (2019) wen- 
deten eine Kombination von Yeo-Johnson- und z-Transformation beispiels- 
weise für die Vorhersage von Hagel mit Hilfe eines Random Forests an. Die- 
se Kombination findet auch in den Modellstudien ab Kapitel 6.2 Anwendung. 
Der Einfluss der Transformationen auf die Vorhersage der Zellattribute und 
deren Güte sowie auf die Wichtigkeit der Prädiktoren wird für die erste Mo- 
dellstudie aus Kapitel 6.2 in Anhang B diskutiert. Eine Transformation der 
Werte der abhängigen Variablen y, die für Regressionsverfahren relevant sein 


kann, stellte sich im Rahmen der vorliegenden Arbeit nicht als vorteilhaft 
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heraus. Eine Erhöhung der Schärfe und Verbesserung der Güte der Vorhersa- 
ge, insbesondere für Regressionsverfahren, lässt sich durch das Resampling 


erreichen (s. u.; vgl. Kapitel 3.5.2). 


Aufspaltung in Trainings- und Testdaten 


Nach der Transformation der Werte der Prädiktoren erfolgt die Aufspaltung 
des gesamten Datensatzes in potentielle Trainingsdaten und Testdaten der- 
gestalt, dass in beiden Datensätzen die ursprüngliche Verteilung der Werte 
der Prädiktanden erhalten bleibt. Den Anteil der potentiellen Trainingsdaten, 
die einen Pool von Zellobjekten für die Auswahl der finalen Trainingsdaten 
darstellen, gibt fr, vor (s. Kapitel 6.2.1). Für die Aufspaltung wird bei Klas- 
sifikationsverfahren in der vorliegenden Arbeit zwischen (a) Studien mit va- 
riablem Entscheidungstrennwert u (verschiedene Realisierungen eines Mo- 
dells; vgl. Kapitel 3.3.2 und 3.4.3) und (b) Studien mit festem Entscheidungs- 
trennwert mit einem Modellensemble (vgl. Kapitel 3.6.1) unterschieden. Bei 
Regressionsverfahren finden ausschließlich Ensemblestudien statt. Im Fall (a) 
erhält jede Realisierung — sofern nicht anders bei den Auswertungen beschrie- 
ben — dieselben finalen Trainings- und Testdaten. Im Fall (b) erfolgt eine 
separate Aufteilung der potentiellen Trainingsdaten und Testdaten für jedes 
Ensemblemitglied. 

Die Testdaten werden jeweils beiseite gelegt, während alle potentiellen Trai- 
ningsdaten selbst oder ein Satz aus Ny, pseudo-zufällig und mit Zurückle- 
gen gezogenen Zellobjekten als finaler Trainingsdatensatz dienen. Letzteres 
nennt sich Bootstrapping und zählt zu den Resampling-Methoden. Im Fall (a) 
kann man das Bootstrapping nutzen, um bei festem Testdatensatz durch 
die Verwendung unterschiedlicher Startwerte (Seeds = Samen) des Pseudo- 
Zufallszahlengenerators unterschiedliche Modelle zu bilden. Im Fall (b) un- 
terscheiden sich die potentiellen Trainingsdaten ohnehin zwischen den ein- 
zelnen Mitgliedern des Ensembles. Ein Bootstrapping ist hier daher nur not- 


wendig, wenn die erforderliche Größe des Trainingsdatensatzes die Anzahl 
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von potentiellen Trainingsdaten tibersteigt. In allen Fallen folgen die mit den 
Trainingsdaten assoziierten Zellattribute weiterhin in sehr guter Näherung 
der ursprünglichen Verteilung des gesamten Datensatzes. Da es hier nicht 
das Ziel ist, ein Modell mit einem optimal angepassten Satz von Prädiktoren 
und Modellparametern zu bestimmen (s. 0.), findet neben dem Ensemblean- 
satz generell keine Kreuzvalidierung mittels eines dritten, von Trainings- und 


Testdaten unabhängigen Validierungsdatensatzes statt. 


Resampling zur Balancierung des Trainingsdatensatzes 


Wie in Kapitel 3.5.2 erläutert wurde, können Resampling-Methoden Pro- 
bleme verringern, die ein unbalancierter Datensatz mit sich bringt, in dem 
die Werte der abhängigen Variablen sehr ungleich verteilt sind. In eini- 
gen Modellstudien in den Kapiteln 6.3 und 6.4 findet eine Kombinati- 
on von Undersampling und Oversampling Anwendung, da sich diese in 
vielen Fällen als vorteilhaft herausgestellt hat: Der Random Forest kann 
nur dank des Resamplings in bestimmten Setups effizient verwendet wer- 
den (s. Kapitel 6.3.1 und 6.4.1). Die Auswirkungen verschiedener Resam- 
pling-Methoden auf die Vorhersagegüte der zwei Klassifikationsverfahren 
sind eher gering (Anhang B). Die Regressionsverfahren hingegen profitieren 
vom Resampling durch eine Erhöhung der Schärfe und eine Verbesserung des 
Vorhersage-Bias (s. Kapitel 6.3.2 und 6.4.2). 


6.1.2 Bedingte Evaluation und spezielle Ensembleevaluation 


Zur differenzierten Interpretation der Ergebnisse der Modellstudien folgt 
ergänzend zu der allgemeinen Beschreibung von Evaluationsmaßen (Kapi- 
tel 3.6) eine kurze Zusammenstellung der besonderen Aspekte der Evaluati- 
on, die speziell für die Modellstudien der vorliegenden Arbeit relevant sind. 
Sind Ereignisse im gesamten Datensatz und somit im Testdatensatz deut- 
lich seltener vertreten als Nicht-Ereignisse, gilt für die Kontingenztabelle der 


binären Vorhersage eines Klassifikationsverfahrens (Tabelle 3.1) allgemein 
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b+d > a+c und meist auch b,d > a,c. Aus diesem Grund ist folglich der 
Proportion Correct (PC; vgl. Tabelle 3.2) meist durch PC ~% dNr,! gegeben, 
da d > a ist. Bei der Interpretation dieses Gütemaßes ist folglich besondere 
Vorsicht geboten. Andere Gütemaße wie die Trefferrate 7, die Fehlalarmra- 
te F und die True Skill Statistic TSS sind unabhängig von der Verteilung der 
Werte einer binären abhängigen Variablen. Im Fall des konstruierten binären 
Prädiktanden Lebensdauer (kurz/lang) dominieren jedoch beispielsweise die 
am häufigsten erreichten Werte für die Lebensdauer die Werte von H und F. 
Bei den Zellobjekten mit kurzer Lebensdauer dominieren die Objekte mit sehr 
kurzer Lebensdauer (7, 12, 17 min) und bei den Zellobjekten mit langer Le- 
bensdauer diejenigen mit einer Lebensdauer nahe des Klassentrennwerts (ab- 
hängig von der Wahl des Übergangsbereichs; vgl. Kapitel 3.6.1). 

Eine mögliche Ergänzung zur Berücksichtigung dieses Ungleichgewichts der 
Stichprobe ist die Formulierung balancierter Gütemaße, welche speziell für 
die Evaluation von Ensemblevorhersagen verwendet werden (s.u.). Prinzi- 
piell wäre auch a priori ein Resampling des gesamten Datensatzes oder des 
jeweiligen Testdatensatzes möglich, um die Verteilung der Werte der abhän- 
gigen Variablen auszugleichen (vgl. Kapitel 3.5.2 und 6.1.1). In der vorlie- 
genden Arbeit entspricht die Verteilung im Testdatensatz jedoch stets in etwa 
der Verteilung im originalen gesamten Datensatz, sodass balancierte Güte- 
maße als Ergänzung zu den standardmäßigen Gütemaßen dienen. Generell 
hilft die Betrachtung mehrerer Gütemaße, verschiedene Aspekte der Vorher- 
sagen näher zu beleuchten (vgl. Tabelle 3.2; Wilks, 2006), wie auch schon 
Doswell et al. (1990) in einer Studie zur Güte von Tornado-Vorhersagen emp- 
fahlen — ebenfalls eine Fragestellung, in der ein Ungleichgewicht des Daten- 


satzes präsent ist. 
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Bedingte Evaluation 


Die grundlegende Idee hinter der Formulierung eines balancierten Giitema- 
Bes ist es, sich den gesamten Wertebereich der abhängigen Variablen y, die 
hier im Fall von Klassifikationsverfahren in einen binären Prädiktanden über- 
führt wird, zu Nutze zu machen. Auch wenn es sich um eine binäre Vor- 
hersage handelt, ist es möglich, die Güte der Vorhersagen für endlich vie- 
le (N7) Intervalle 7 des Wertebereichs von y separat zu quantifizieren. Bei- 
spielsweise kann die Lebensdauer der zeitlichen Auflösung der Radarmessun- 
gen entsprechend in Intervalle von 5 min aufgeteilt werden. Diese Betrach- 
tungsweise bezeichnet man als bedingte Evaluation, welche in den Kapiteln 
6.2 bis 6.4 zusätzlich mit Grafiken veranschaulicht wird, welche die Ensem- 
blevorhersagen den jeweiligen Beobachtungen der abhängigen Variablen y 
gegenüberstellen. Dies geschieht mittels einer auf die jeweilige Problem- 
stellung angepassten Darstellung von bedingten Quantil-Plots (Conditional 
Quantile Plots) nach Murphy et al. (1989) basierend auf der sogenannten 
Likelihood-Base Rate Factorization sowie der Calibration-Refinement Fac- 
torization (Murphy und Winkler, 1987; Wilks, 2016). 


Ein balanciertes Gütemaß für binäre Klassifikationsverfahren 


Ein neu eingeführtes Maß für die balancierte Genauigkeit (Accuracy; ACC) 


einer Ensemblevorhersage für Klassifikationsverfahren stellt 


iS 
ACC = — ) acc; 6.1 
= (6.1) 
mit i 
TEN V (1 50) E ee (6.2) 


I; 
ul" er} 
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dar (vgl. Kapitel 3.6.1). Darin steht ër 


binären Prädiktanden y; für den beobachteten Wert der nicht-binären, abhän- 


zur Abgrenzung gegenüber dem 


gigen Variablen y. Die spezifische balancierte Genauigkeit acc; gibt folglich 
die mittlere Wahrscheinlichkeit für eine korrekte Vorhersage eines Zellob- 
jekts innerhalb des i-ten Intervalls mit Nz, Beobachtungen basierend auf ei- 
nem Ensemble an. Das balancierte Gütemaß ACC entspricht darüber hinaus 
der über alle Nz Intervalle gemittelten mittleren Wahrscheinlichkeit für eine 
korrekte Vorhersage eines Zellobjekts basierend auf einem Ensemble. Damit 
folgt, dass ACC € [0; 1] ist mit ACC,p, = 1 als optimalem Wert. Mit dieser 
Formulierung eines Gütemaßes werden alle Intervalle gleichermaßen berück- 
sichtigt — unabhängig von der Anzahl von Zellobjekten, die in die jeweiligen 
Intervalle fallen. Wird zur Separation der beiden Klassen des Prädiktanden 
bei der Evaluation ein Übergangsbereich um den Klassentrennwert gewählt, 
so gehen in Gleichung (6.1) nur diejenigen Intervalle ein, die außerhalb dieses 
Übergangsbereichs liegen (vgl. Kapitel 3.6.1). Damit sehr wenige Zellobjek- 
te mit extrem selten aufgetretenen Werten der abhängigen Variablen die ACC 
nicht zu stark dominieren, sollte zudem eine Mindestanzahl von Objekten mit 
gleichen Werten in einem Intervall vorliegen, damit die acc dieses Intervalls 
in die Berechnung der ACC eingehen darf. 

Für ein Ensemble, bei dem jedem Mitglied derselbe Testdatensatz zugrun- 
deliegt, entspricht die ACC dem Mittel der über das Ensemble gemittelten 
PC-Werte in den jeweiligen Intervallen, d.h. es gilt 


ih 
ACC = PCya = — YPC”? (6.3) 
NA 
mit dem Ensemblemittel der Scores der einzelnen Mitglieder pc in den 
jeweiligen Intervallen 

1 Nens 
pc") = — Y pc , (6.4) 

N, ens q=1 
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Fiir jedes Intervall wird demnach fiir jedes Ensemblemitglied eine eigene 
Kontingenztabelle (Tabelle 3.1) erstellt. Gehört ein Intervall J; zur Klasse der 
Nicht-Ereignisse, folgt, dass al? = cht = 0 und pc = dons mit Nj, = 
9 + déi ist. Umgekehrt ist für ein Intervall J;, das zur Klasse der Ereignisse 
gehört, pc? = aN; mit N, = al? +0, Fiir ein Ensemble, bei dem 
nicht jedem Mitglied derselbe Testdatensatz zugrundeliegt, ist ACC A PCpar- 
Da dies in den folgenden Modellstudien der Fall sein wird (vgl. Kapitel 6.1.1), 
wird die balancierte Genauigkeit ACC über die Gleichungen (6.1) und (6.2) 


berechnet. 


Ein balanciertes Gütemaß für Regressionsverfahren 


Ein neu eingeführtes Maß für die balancierte Genauigkeit einer Ensemblevor- 
hersage für Regressionsverfahren stellt in Analogie zum Root Mean Squared 
Error (RMSE) die Wurzel des balancierten, mittleren quadratischen Fehlers 
bzw. des Balanced Root Mean Squared Errors (BRMSE) dar. Dieser wird in 


den Modellstudien mit Regressionsverfahren über 
1 
BRMSE = — me; (6.5) 
Nr 
mit 


Nons 
me; = ( We D (vj = gi ), un (6.6) 
ch 
berechnet (vgl. Kapitel 3.3.1). Zunächst wird demnach die über das En- 
semble gemittelte Abweichung der Vorhersagen der Mitglieder für das j-te 
Zellobjekt vom beobachteten Wert bestimmt. N/,, steht für die Anzahl 
an Mitgliedern, bei denen das j-te Zellobjekt im Testdatensatz vorhanden 
ist (vgl. Kapitel 3.6.1). Dies erfolgt für alle Objekte innerhalb des Intervalls Jj. 
Im Anschluss ergibt sich der dortige spezifische mittlere Fehler me; als der 
Median (-) der gemittelten Abweichungen aller Zellobjekte, für die y; € I; 
gilt. Der BRMSE ist schließlich das arithmetische Mittel der Quadrate von me 
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über alle Intervalle. Damit folgt, dass BRMSE € [0; œ] ist mit BRMSE,»; = 0 
als optimalem Wert. Für jedes Intervall geht demnach in die Berechnung des 
quadratischen Fehlers der Wert eines Stellvertreters ein, in dieser Formulie- 
rung der Median der Ensemblemittelwerte. Mit dieser Formulierung eines 
Gütemaßes werden wie für die ACC alle Intervalle gleichermaßen berück- 
sichtigt — unabhängig von der Anzahl von Zellobjekten, die in die jeweiligen 
Intervalle fallen. Damit sehr wenige Zellobjekte mit extrem selten aufgetrete- 
nen Werten der abhängigen Variablen den BRMSE nicht zu stark dominieren, 
sollte hier ebenfalls eine Mindestanzahl von Objekten mit gleichen Werten in 
einem Intervall vorliegen, damit der me dieses Intervalls in die Berechnung 
des BRMSE eingehen darf. 


Spezielle probabilistische Gütemaße 


Die allgemeine Formulierung für den Brier Score (BS) in Gleichung (3.77) 
kann modifiziert werden, um für jede Klasse des Prädiktanden separat einen 
BS zu bestimmen. Für die i-te Klasse X7 mit N; Zellobjekten bedeutet dies: 


1 a(ens) 2 
Bä A. vr . (6.7) 
ER ge ”) 


Dieser Score findet in den folgenden Modellstudien zur probabilistischen Be- 
wertung der Güte der Ensemblevorhersagen von Zellobjekten einer bestimm- 
ten Klasse Verwendung. 

Wird der Testdatensatz für jedes Ensemblemitglied variiert (vgl. Kapi- 
tel 6.1.1), bestimmt sich die Schwankungsbreite der Ensemblevorhersagen 


a (ens) 


ô; in Gleichung (3.81) für das j-te Zellobjekt nur über die Na Ensem- 
blemitglieder, bei denen dieses im Testdatensatz vorhanden ist. Teilt man 
beispielsweise den Datensatz für jedes Mitglied zu etwa zwei Dritteln in 
Trainings- und zu einem Drittel in Testdaten auf, so wird jedes Zellobjekt im 


Mittel in etwa 0,66 Nens Trainings- und 0,34 Nens Testdatensätzen enthalten 
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sein (s. Kapitel 6.2.2). Unterschiedliche Zellobjekte treten allerdings in unter- 


schiedlich vielen Testdatensätzen auf, wobei die Häufigkeit näherungsweise 
normalverteilt ist. Daher kann 
dem jedem Mitglied derselbe Testdatensatz zugrundeliegt (vgl. Kapitel 3.6.1). 


mehr Werte annehmen als in dem Fall, in 


6.2 Erste Modellstudie mit zwei Prädiktoren: DLS 
und LI 


Die 38553 Zellobjekte aus dem kombinierten Datensatz (Zellattribute und 
Umgebungsvariablen) werden nun in zwei Klassen aufgeteilt: solche mit 
kurzer und solche mit langer Lebensdauer. Auf den Klassentrennwert 7 
für die Lebensdauer (vgl. Kapitel 3.6.1, 5.3.1 und 6.1) und weitere Fest- 
legungen für eine erste Modellstudie geht Kapitel 6.2.1 ein. Anschließend 
zeigt Kapitel 6.2.2 einen Vergleich der zwei verschiedenen nicht-linearen 
Klassifikationsverfahren: der logistischen Regression und des Random Fo- 
rests (vgl. Kapitel 3.3.2 und 3.4). Dies geschieht in einem einfachen ersten 
Setup mit lediglich zwei Prädiktoren, der Modellstudie U2_0. Die Evalua- 
tion der Verfahren behandelt für diese Modellstudie einige Details, um mit 
der Interpretation der Ergebnisse vertraut zu werden und die vielen verschie- 
denen Aspekte hervorzuheben, über die anhand der Modellstudien relevante 
Informationen gewonnen werden können. Die Ergebnisse der daran anschlie- 
Benden Modellstudien in den Kapiteln 6.3 und 6.4 werden dort in einer kom- 
pakten Weise vorgestellt und diskutiert. 


6.2.1 Beschreibung der ersten Modellstudie 


Um die angewendeten Verfahren detailliert zu analysieren und diskutieren, 
wird zunächst ein einfaches Setup mit lediglich zwei Umgebungsvariablen 
als Prädiktoren vorgestellt, die Modellstudie U2_0. Diese wird anschließend 
in den Kapiteln 6.3 und 6.4 in die Modellstudie U2 überführt und mit vielen 
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weiteren Modellstudien verglichen, die auf Kombinationen von bis zu 20 aus- 
gewählten Prädiktoren basieren. Als Prädiktoren in der Modellstudie U2_0 
fungieren zwei Umgebungsvariablen, die (a) relevant für die Entstehung 
bzw. Organisation hochreichender Konvektion sind, (b) möglichst unkorre- 
liert sind (vgl. Kapitel 5.2.2), und (c) in den Analysen aus Kapitel 5.3 bereits 
unter den am besten zwischen Zellobjekten unterschiedlicher Lebensdauer 
unterscheidenden Variablen zu finden sind. So fällt die Wahl nach dem Tes- 
ten verschiedener Kombinationen auf die DLS und den LIjoonpa als Ausdruck 
der vertikalen Windscherung bzw. der thermischen Instabilität der Atmosphä- 
re. Beide Variablen haben sich bereits in verschiedenen Studien als geeig- 
nete Prädiktoren für hochreichende Konvektion gezeigt (z.B. Kunz, 2007; 
Púčik et al., 2015; Rädler et al., 2019; Kunz et al., 2020). Außerdem ist die 
(Rang-)Korrelation der beiden Variablen niedrig (rs = 0,15 bzw. rp = 0,19; 
vgl. Abbildung 5.13). Zudem gehört die DLS zu den Variablen, die in den 
Analysen in Kapitel 5.3.1 zum Unterscheidungsvermögen zwischen Zellob- 
jekten unterschiedlicher Lebensdauer die besten kategorischen Gütemaße er- 
reichen. Der LIjoonpa rangiert zwar etwas weiter hinten, dennoch ist die Wahl 
auch mit Blick auf die Abbildungen D Ac und 5.14 sinnvoll. 

Die folgenden Festlegungen für die Modellstudie U2_0 wurden auf der Basis 
von einer großen Anzahl von Tests getroffen. Ausführliche Sensitivitätsun- 
tersuchungen hierzu finden sich in Anhang B. Die Werte der beiden Prädik- 
toren, welche den Umgebungsvariablen zum Zeitpunkt der ersten Detekti- 
on des jeweiligen Zellobjekts entsprechen, werden einer z- und einer Yeo- 
Johnson-Transformation unterzogen (vgl. Kapitel 3.5.1 und 6.1.1). Der Klas- 
sentrennwert T für die Unterscheidung in Zellobjekte mit kurzer oder lan- 
ger Lebensdauer wird auf tT = 1 h = 60 min festgelegt. Damit zählen im Da- 
tensatz von U2_0 von den insgesamt 38553 Zellobjekten 1096 zur Klasse 
lange Lebensdauer (L) und 37457 zur Klasse kurze Lebensdauer (K). Das 
Klassenverhältnis px, also die Anzahl von Zellobjekten mit einer langen Le- 
bensdauer geteilt durch die Anzahl von Zellobjekten mit einer kurzen Le- 


bensdauer, liegt daher bei etwa 2,9 % (vgl. Kapitel 3.5.2). Als Testdatensatz 
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dienen 34 % des kompletten Datensatzes. Um systematische Abhängigkeiten 
zu verhindern, die alleine auf die Datenauswahl zurückzuführen wären, wird 
dazu zufällig (ohne Zurücklegen) aus dem gesamten Datensatz der 38553 
Zellobjekte gezogen, sodass die ursprüngliche Verteilung der Lebensdauer 
und somit das Klassenverhältnis in sehr guter Näherung erhalten bleibt. Als 
halbe Breite des Übergangsbereichs für den Klassentrennwert 7 bei der Eva- 
luation dient 7’ = 15 min, sodass Zellobjekte mit einer Lebensdauer zwischen 
T— T = 45 min und t+ El = 75min nicht in die Berechnung der Gütemaße 
eingehen. Dies modifiziert das Klassenverhältnis im Testdatensatz im Ver- 
gleich zur Verteilung des gesamten Datensatzes leicht (s. u.). Das Ziehen der 
Trainingsdaten erfolgt durch ein Bootstrapping aus den verbleibenden 66 % 
der Daten (fr, = 0,66). Die Stichprobengröße des Trainingsdatensatzes ist 
Nr, = 25 000. Eine Balancierung des Trainingsdatensatzes bezüglich der Le- 
bensdauer erfolgt vorerst nicht (vgl. Kapitel 3.5.2 und 6.1.1). 

Mit den beiden Vorhersagemethoden (logistische Regression und Random 
Forest) werden zunächst jeweils zehn verschiedene Modelle trainiert, die 
auf unterschiedlichen Trainingsdaten basieren. In den folgenden Abbildun- 
gen und Tabellen werden die Methoden aufgrund des häufigen Auftretens 
mit LOGR und RF abgekürzt. Der Algorithmus für das Bootstrapping wählt 
für das Training der Modelle unterschiedliche Startwerte für die Pseudo- 
Randomisierung beim Ziehen. Je nach Untersuchung setzen sich die Test- 
daten für alle Modelle entweder aus denselben Zellobjekten oder einer un- 
terschiedlichen Auswahl von Zellobjekten zusammen. Dies wird im Folgen- 
den jeweils im Detail spezifiziert. Aufgrund des niedrigen Klassenverhältnis- 
ses, d.h. des starken Ungleichgewichts der Repräsentation von Zellobjekten 
mit kurzer und langer Lebensdauer im Datensatz, ist eine Variation der Ent- 
scheidungstrennwerte im niedrigen Bereich notwendig: urocr € [0,01 ; 0,06] 
und urr € [0,001; 0,101]. Für jedes Modell werden 51 Realisierungen mit 


unterschiedlichen Entscheidungstrennwerten berechnet. Der Random Forest 
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besteht aus Ngaum = 1000 Bäumen. Da es lediglich zwei Prädiktoren gibt, 
für welche die Minimierung der Residuen an einem Splitpunkt durchgeführt 


werden kann, ist N;pıir = 2 eine sinnvolle Wahl (vgl. Kapitel 3.4.3). 


6.2.2 Evaluation der ersten Modellstudie 


Das in Kapitel 3.6.1 beschriebene ROC-Diagramm hilft, einen Überblick über 
verschiedene Realisierungen der logistischen Regression und des Random Fo- 
rests zu bekommen, die auf unterschiedlichen Entscheidungstrennwerten u 
bezüglich p(y = 1 | x = x;) bei der Zuordnung der Vorhersagen zu den 
beiden Klassen des Prädiktanden beruhen (vgl. Gleichungen (3.36), (3.71) 
und (3.72)). Je nach Fragestellung können Vorhersagen von unterschiedli- 
chen Realisierungen als beste Vorhersagen bewertet werden. Deswegen wer- 
den unter anderem folgende zentrale Fragestellungen in den Auswertungen 
diskutiert: 


(A) Sollen die Vorhersageverfahren eher möglichst viele Zellobjekte mit 
langer Lebensdauer als solche erkennen? Dann empfiehlt sich eine Rea- 
lisierung weiter rechts auf der ROC-Kurve. Dafür müssen womöglich 


deutlich mehr Fehlalarme in Kauf genommen werden. 


(B 


KSE 


Sollen die Vorhersageverfahren sowohl Zellobjekte mit langer als auch 
kurzer Lebensdauer möglichst gut vorhersagen? Dann empfiehlt sich 
eine Realisierung, die die TSS bzw. den Abstand zur Diagonalen im 
ROC-Diagramm D maximiert (vgl. Abbildung 3.4). Insbesondere für 
diese Fragestellung ist zudem die Betrachtung von balancierten Güte- 
maßen nützlich (Kapitel 6.1.2). 


(C 


Ya 


Oder sollen die Vorhersageverfahren insgesamt möglichst viele Zellob- 
jekte korrekt vorhersagen? Dann empfiehlt sich die Betrachtung wei- 
terer Scores wie z.B. des PC oder des False Alarm Ratios (FAR), 
da H und F nicht sensitiv bezüglich des Klassenverhältnisses px 
sind (vgl. Tabelle 3.2). 
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Damit behandeln diese Fragestellungen mehrere Aspekte der Vorhersagen, 
die bei einer Entscheidung fiir einen der gezeigten Modellansätze als Anwen- 


dung in einem Nowcasting-Verfahren relevant sein könnten. 


Deterministische Evaluation 


Die ROC-Kurven aus den 51 Realisierungen für die jeweiligen Modelle zei- 
gen, dass die Vorhersagen beider Verfahren als mäßig bis schlecht einzuord- 
nen sind (Abbildung 6.2). Die logistische Regression liefert allerdings bes- 
sere Vorhersagen als der Random Forest. Im Sinne der kategorischen (bi- 
nären) Evaluation entspricht die Klasse L einem Ereignis und K einem 
Nicht-Ereignis (Kapitel 3.6.1; vgl. Tabelle 6.1). 7 stellt folglich den Anteil 
der Zellobjekte aus Klasse L dar, die das jeweilige Modell als zur Klasse L 
gehörig vorhersagt. F entspricht umgekehrt dem Anteil aus Klasse K, die das 
jeweilige Modell als zur Klasse L gehörig vorhersagt. 

Für die Fläche unter der ROC-Kurve (AUC; vgl. Kapitel 3.6.1), die Werte zwi- 
schen 0 und | annehmen kann mit | als optimalem Wert, liefert die logistische 
Regression Werte von bis zu AUC = 0,687 (Abbildung 6.2c). Die Variabili- 
tät der Kurven der zehn verschiedenen Modelle bei der Variation des Trai- 
ningsdatensatzes ist im Fall der logistischen Regression nur gering (Abbil- 
dung 6.2a). Mehr Variabilität wird erfasst, wenn jedem Modell sowohl unter- 
schiedliche Trainings- als auch Testdaten zugrunde liegen (Abbildung 6.2c). 
Aus diesem Grund werden in den später gezeigten Ensemblevorhersagen 
grundsätzlich beide Datensätze variiert. Ein Overfitting eines der Modelle, 
also eine Überanpassung an die verwendeten Trainingsdaten, ist hier nicht 
zu erkennen, da die ROC-Kurven sehr ähnlich verlaufen und stets links der 
Diagonalen liegen, die eine binäre zufällige Vorhersage charakterisiert. Die 
logistische Regression mit der DLS als einzigem Prädiktor führt bereits zu 
Werten von AUC = 0,64 und hat somit deutlich mehr Einfluss als der LIjo0hPa;> 
der alleine lediglich AUC = 0,56 aufweist. Dieses Ergebnis passt gut zu dem 


bereits analysierten Unterscheidungsvermögen der Variablen (Kapitel 5.3.1). 
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Abbildung 6.2: ROC-Kurven basierend auf 51 Realisierungen mit unterschiedlichen Entschei- 
dungstrennwerten für zehn verschiedene Modelle (a,c) der logistischen Regression und (b,d) des 
Random Forests. Die Modelle sind farblich codiert. (a) und (b) stellen eine Modellstudie mit 
variierenden Trainingsdaten mit jeweils denselben Testdaten dar. (c) und (d) stellen eine Modell- 
studie mit variierenden Trainings- und Testdaten dar. Zusätzlich ist in (a) und (c) die minimale, 
mittlere und maximale AUC angegeben. 
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Tabelle 6.1: Kontingenztabellen für die Vorhersage der Lebensdauer der Zellobjekte 
als Klassifikation Kurz/Lang (t = 60min) mittels der logistischen Regression (oben; 
UroGr = 0,029) und des Random Forests (unten; Urr = 0,002) für Modell G (s. u.; Modell- 
studie U2_0). Da t’ = 15 min gewählt wurde, ist hier die Anzahl der evaluierten Zellobjekte 
Nj, = 12526 < 13108 = (1— frr)N (vgl. Kapitel 3.6.1). 


Beobachtung — | Lang (L) | Kurz (K) 


Vorhersage | 
Lang (L) a=114 | b=4950 
Kurz (K) c=52 | d=7410 


Beobachtung — | Lang (L) | Kurz (K) 


Vorhersage | 
Lang (L) a=91 b=5155 
Kurz (K) e=75 d= 7205 


Da der Random Forest seine Stärken bei Vorhersagen mit einer großen 
Anzahl von Prädiktoren hat (vgl. Kapitel 6.1.1), sind erwartungsgemäß die 
Vorhersagen mit lediglich zwei Prädiktoren kaum besser als eine binäre 
zufällige Vorhersage. Die einzelnen Realisierungen der zehn Modelle streuen 
unregelmäßiger als die der logistischen Regression, sodass eine sinnvolle 
Berechnung der AUC nicht möglich ist (Abbildungen 6.2b und 6.2d). Zudem 
zeigt sich eine etwas höhere Variabilität der Kurven der zehn verschiedenen 
Random Forest-Modelle. Man beachte, dass ugr = 0,001 bei 1000 Bäumen 
der kleinstmögliche Entscheidungstrennwert ist. Eine Vergrößerung der 
Baumanzahl auf z. B. 3000 mit noch geringeren Trennwerten ändert jedoch 


qualitativ nichts an den gezeigten Ergebnissen (nicht gezeigt). 
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Für ein ausgewähltes Modell (als Modell G bezeichnet, gelbe Linie in Ab- 
bildung 6.2c bzw. 6.2d) findet sich in Abbildung 6.3 ein Überblick über 
verschiedene Gütemaße der kategorischen Evaluation, die sich für jede der 
51 Realisierungen mit Hilfe der Kontingenztabelle (Tabelle 3.1) berechnen 
lassen. In Tabelle 6.1 sind für eine beispielhafte Realisierung von Modell G 
die Kontingenztabellen für die logistische Regression und den Random Forest 
gezeigt (Uzocr = 0,029, urr = 0,002). Für die evaluierten Zellobjekte fin- 
det man ein starkes Ungleichgewicht von pk re = (a +c)(b +d)! ~ 1,3 %. 
Dies liegt noch unter dem Klassenverhältnis des gesamten Datensatzes von 
Px 22,9%, da aufgrund der Wahl von 7’ = 15 min die Zellobjekte nahe des 
Klassentrennwerts 7 nicht in die Evaluation eingehen (vgl. Kapitel 6.2.1). 

Es ist daher nicht verwunderlich, dass das Fehlalarmverhältnis mit Werten 
jenseits von FAR = 0,93 (bezogen auf alle Realisierungen der zehn Model- 
le) generell sehr hoch und das Success Ratio (SR) mit SR < 0,07 sehr nied- 
rig ist, da L-Vorhersagen für die Zellobjekte mit kurzer Lebensdauer beide 
Gütemaße dominieren. Zum Vergleich: Wird immer eine lange Lebensdauer 
vorhersagt, ist FAR = 1 — px 7,; für T = 60 min ist folglich FAR ~ 0,987. 
Dies manifestiert sich auch in hohen Werten fiir den Bias (B), die fiir akzep- 
table Werte von H ein starkes Overforecasting anzeigen. Der Proportion Cor- 
rect (PC) wird mit steigendem Entscheidungstrennwert größer, da für mehr 
Zellobjekte mit kurzer Lebensdauer auch K-Vorhersagen getroffen werden, 
allerdings auf Kosten von H. Der Heidke Skill Score (HSS), der Equitable 
Threat Score (ETS) und der Critical Success Index (CST) verhalten sich qua- 
litativ ähnlich und deuten die höchste Güte für hohe Entscheidungstrennwerte 
an, d.h. sie bewerten die Reduzierung des FAR höher als eine gute Vorher- 
sage der Zellobjekte mit langer Lebensdauer, an der man jedoch im Hinblick 
auf die gefährlichen Begleiterscheinungen konvektiver Zellen eher interes- 
siert ist (s.o. Fragestellung (A); vgl. Kapitel 2.2). Im Fall der logistischen 
Regression findet sich das Maximum der True Skill Statistic (TSS) im Mittel 
bei der zwanzigsten der 51 Realisierungen (UzoGr = 0,029), bei der das Odds 
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dell G; LOGR) dell G; RF) 


Abbildung 6.3: Verschiedene (Skill) Scores basierend auf 51 Realisierungen mit unterschied- 
lichen Entscheidungstrennwerten u für jeweils ein repräsentatives Modell (a) der logistischen 
Regression und (b) des Random Forests. Einige der gezeigten Gütemaße sind zur besseren Über- 
sicht skaliert dargestellt. 


Ratio (OR) bei etwa OR * 3 liegt (nicht gezeigt). Die Chance, Zellobjekte 
mit langer Lebensdauer nach L-Vorhersagen zu beobachten, ist dort demnach 


etwa dreimal höher als nach einer K-Vorhersage. 


Probabilistische Evaluation — Ein Ensembleansatz 


Für einen Entscheidungstrennwert u, der H und 1—F in etwa ausbalanciert 
sowie einen hohen TSS-Wert erreicht, folgt im Anschluss eine Ensemble- 
studie mit 51 Modellen für U2_0. Dieses Ensemble orientiert sich damit 
an der eingangs dieses Abschnitts beschriebenen Fragestellung (B), bei der 
man daran interessiert ist, sowohl Zellobjekte mit langer als auch kurzer 
Lebensdauer möglichst gut vorherzusagen. Unterschiedliche Vorhersagever- 
fahren erfordern in der Regel unterschiedliche Entscheidungstrennwerte u, 
um Ensemblevorhersagen zu generieren, deren Mittelwertspunkte (F (ens), 
H()) in etwa auf dem gleichen Lot der ROC-Diagonalen liegen. Die 
passenden Entscheidungstrennwerte sind hier Uioep = 0,029 sowie 
Urr = 0,002. Damit das Ensemble möglichst viel Variabilität abdeckt, wird, 
wie in Kapitel 6.1.1 erläutert, für jedes Modell ein anderer potentieller 
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Abbildung 6.4: Trefferrate (H) und Fehlalarmrate (F) für ein Ensemble aus 51 verschiedenen 
Modellen (a) der logistischen Regression und (b) des Random Forests bei festen Entscheidungs- 
trennwerten Drock = 0,029 bzw. urr = 0,002 bei gleichzeitiger Variation von Trainings- und 
Testdatensatz (bunte Kreise). Zusätzlich ist das Ensemblemittel mit einem schwarzen Kreuz und 
gestrichelten Linien dargestellt. 


Trainings- und Testdatensatz verwendet. Der Ensembleansatz bietet zudem 
die Möglichkeit einer probabilistischen Vorhersage der Lebensdauer-Klasse 
einzelner Zellobjekte und liefert somit ein Maß für die Eintrittswahrschein- 
lichkeit von hohen Werten für die Lebensdauer. Damit lassen sich Werte 
für den BS berechnen (vgl. Kapitel 3.6.1). Darüber hinaus werden die 
klassenspezifischen BS bestimmt (vgl. Kapitel 6.1.2). 


Bedingte Evaluation 

H und F variieren innerhalb des Ensembles teils deutlich (Abbildung 6.4). 
Dies unterstreicht, dass der Ensembleansatz ein wichtiger Schritt für 
eine differenzierte Evaluation ist. Wie in Kapitel 6.1.2 erläutert, wird im 
Folgenden auch eine bedingte Evaluation, d.h. eine separate Auswertung 
für jede beobachtete Lebensdauer, vorgenommen. Die Vorhersageverfahren 


prognostizieren Zellobjekte mit einer Lebensdauer, die weit entfernt vom 


259 


6 Vorhersageverfahren: Entwicklung und Evaluation 
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Abbildung 6.5: Bedingte Quantil-Plots fiir die Anteile aller Zellobjekte gleicher beobachteter 
Lebensdauer an den beiden Vorhersage-Klassen fiir die Lebensdauer (K: violett, L: orange) fiir 
dasselbe Ensemble wie in Abbildung 6.4 mittels (a) der logistischen Regression und (b) des 
Random Forests. Sowie: Bedingte Quantil-Plots fiir die Anteile korrekter Prognosen fiir jedes 
einzelne Zellobjekt fom) — zusammengefasst fiir Zellobjekte gleicher beobachteter Lebensdauer 
— für dasselbe Ensemble mittels (c) der logistischen Regression und (d) des Random Forests. 
Dargestellt sind Median (Linie), der Interquartilsbereich (dunkle Schattierung), das 5. und 
95. Perzentil (helle Schattierung), sowie in (c) und (d) der Mittelwert, der gemäß Gleichung (6.2) 
durch acc gegeben ist (schwarz gestrichelte Linie). Gekreuzt sind die Bereiche, in denen weniger 
als 20 Zellobjekte dieselbe Lebensdauer erreichten. Die grau gestrichelte Linie veranschaulicht 
den jeweiligen Anteil der Zellobjekte gleicher Lebensdauer an der Gesamtzahl von Zellobjekten, 
skaliert bzgl. der Objektanzahl mit einer Lebensdauer von 7 min. 


Klassentrennwert liegt, insgesamt besser (Abbildungen 6.5a und 6.5b). 
Aufgrund der deutlich geringeren Anzahl von Zellobjekten mit langer 
Lebensdauer im Testdatensatz ist die Varianz zwischen den einzelnen 


Ensemblemitgliedern dort größer. Betrachtet man die Anteile korrekter 
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Vorhersagen für jedes Zellobjekt separat (Abbildungen 6.5c und 6.5d), 
fällt sofort die große Schwankungsbreite zwischen den Zellobjekten auf, 
insbesondere bei der logistischen Regression. Es gibt folglich Zellobjekte 
einer bestimmten beobachteten Lebensdauer, die sehr viele oder sogar 
alle Ensemblemitglieder korrekt vorhersagen. Andererseits gibt es auch 
viele Zellobjekte, die kaum ein oder gar kein Ensemblemitglied richtig 
vorhersagt. Von den Zellobjekten mit kurzer Lebensdauer erreicht die 
Gruppe der Zellobjekte mit vergleichsweise sehr kurzer Lebensdauer über 
Gleichung (6.2) die höchsten Werte für die Genauigkeit acc, während von 
den Zellobjekten mit langer Lebensdauer die Gruppe der Zellobjekte mit 


sehr langer Lebensdauer die höchsten Werte verzeichnet. 


Bezugnehmend auf die oben beschriebenen Fragestellungen (A) und (B) 
können drei ausgewählte Gütemaße als grafischer Vergleich zwischen 
den beiden Vorhersageverfahren dienen: 1) Der BS der Zellobjekte mit 
langer Lebensdauer, um Fragestellung (A) zu bearbeiten; 2) die ACC 
für Fragestellung (B); und 3) oon zur Quantifizierung der mittleren 
Schwankungsbreite des jeweiligen Ensembles (Abbildung 6.6). Ahnlich wie 
beim ROC-Diagramm gilt in dieser Darstellung: Je weiter links oben das 


Symbol liegt, desto besser ist die Vorhersage zu bewerten. 


Brier Scores 

Eine konstante Vorhersage, die fiir alle Zellobjekte immer eine kurze Lebens- 
dauer prognostiziert, ergibt bei der Betrachtung des gesamten Datensatzes 
mit Abstand den niedrigsten BS (BS = 0,03), da mehr als 98 % der evalu- 
ierten Zellobjekte eine kurze Lebensdauer aufweisen (Tabelle E.2). Folglich 
dominieren die Zellobjekte mit kurzer Lebensdauer den BS des Ensemblemit- 
tels (Eintrittswahrscheinlichkeit einer langen Lebensdauer) der logistischen 
Regression. Die Untersuchung fiir die Zellobjekte mit langer Lebensdauer 
alleine (BS; = 0,17) zeigt, dass die logistische Regression besser ist als eine 


50 %-Vorhersage (BSS; = 0,32) bzw. eine zufällige Vorhersage, bei der jedem 
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Abbildung 6.6: Synopse verschiedener Gütemaße für die Ensembles der logistischen Regres- 
sion (Kreis) und des Random Forests (Dreieck; Modellstudie U2_0 Ensemble). Je größer die 
Symbole sind, desto größer ist die mittlere Schwankungsbreite des Ensembles Gens. Grau ge- 
strichelte Linien stellen die Werte der Scores für zufällige Vorhersagen (horizontale + rechte 
vertikale Linie) bzw. einer 50 %-Vorhersage (linke vertikale Linie) dar. 


Zellobjekt als Vorhersage zufällig ein Wert aus einer uniformen Verteilung 
der Eintrittswahrscheinlichkeiten zugewiesen wird (BSS; = 0,49). Damit ist 
sie zugleich deutlich besser als eine zufällige Vorhersage, bei der man aus der 
beobachteten Verteilung von Zellobjekten mit kurzer und langer Lebensdau- 
er zieht (BSS; = 0,83). Aus dieser Perspektive kann man dem Ensemble der 
logistischen Regression folglich eine gewisse, wenn auch geringe probabilis- 
tische Vorhersagegüte attestieren. 

Der BS bezüglich aller Zellobjekte ist mit BS = 0,26 für den Random 
Forest geringer im Vergleich zur logistischen Regression (Tabelle E.3). Die 
Erklärung dafür ist die geringere Schwankungsbreite Gens der logistischen 
Regression sowie die quadratische Natur von BS. Die Ensemblevorhersagen 
der logistischen Regression fallen bei der Berechnung von BS daher stärker 


ins Gewicht. Somit erreicht der Random Forest auch höhere Werte für die 
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verschiedenen BSS als die logistische Regression, ebenso bei der separaten 


Betrachtung der beiden Klassen der Lebensdauer. 


Balancierte Genauigkeit 

Für die logistische Regression ergibt sich unter Berücksichtigung von 
T = 15min gemäß Gleichung (6.1) eine balancierte Genauigkeit von 
ACC = 0,599, wobei nur solche 5 min-Intervalle in die Berechnung eingehen, 
in denen mehr als 20 Zellobjekte vorzufinden sind (vgl. Abbildung 6.5c). Die 
ACC erreicht einen Wert von 0,637, wenn man die Forderung nach der Min- 
destanzahl von Zellobjekten auf beispielsweise zehn Zellobjekte abschwächt, 
da dann weitere Intervalle höherer Lebensdauer in die Berechnung der ACC 
eingehen. Für den Random Forest liegt die balancierte Genauigkeit für eine 
Mindestanzahl von 20 Zellobjekten mit ACC ~ 0,531 erwartungsgemäß 
unter derjenigen der logistischen Regression (vgl. Abbildung 6.5d). In 
weiteren Untersuchungen mit höheren Werten für Usr zeigt sich, dass die 
ACC nahezu konstant bleibt. Das Ensemblemittel des Proportion Correct 
PClers) hingegen steigt, da (viel) mehr Zellobjekte mit kurzer Lebensdauer 
richtig und nur eine geringe Anzahl von Zellobjekten mit langer Lebensdauer 
weniger falsch vorhergesagt werden (nicht gezeigt). Dies verdeutlicht, dass 
die ACC besser fiir einen Vergleich der Verfahren geeignet ist, um alle Werte 


für die Lebensdauer gleichermaßen zu bewerten. 


Mittlere Schwankungsbreite des Ensembles 

Eine genauere Überprüfung der mittleren Schwankungsbreite für die 
logistische Regression zeigt, dass die über die Zellobjekte gemittelte 
Schwankungsbreite der Ensemblevorhersagen gemäß Gleichung (3.80) 
lediglich bei Gens 7x 0,070 liegt. Die Vorhersagen der einzelnen Modelle für 
dasselbe Zellobjekt unterscheiden sich also selten und daher liegen entweder 
die meisten Mitglieder richtig oder die meisten falsch. Nur solche Zellobjekte 
gehen in das Mittel ein, für welche mindestens zehn der 51 Ensemblemit- 


glieder Vorhersagen treffen, was für mehr als 99 % der Objekte der Fall ist. 
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Aufgrund der zufalligen Variation von Trainings- und Testdatensatz ist die 
Verteilung der Häufigkeit der Zellobjekte näherungsweise normalverteilt 
mit 17,34 + 6,78 Vorhersagen (Mittel über alle Objekte mit zweifacher 


Standardabweichung; vgl. Kapitel 6.1.2). Die Schwankungsbreite ist für den 
Random Forest mit Cens x~ 0,387 deutlich höher als bei der logistischen 
Regression, d.h. die unterschiedlichen Random Forest-Modelle sagen 


dasselbe Zellobjekt häufiger unterschiedlich vorher. Somit liegen die Anteile 
(ens) 
J 

Bereich zwischen O und 1. Dies zeigt sich beispielsweise in dem engeren 


korrekter Vorhersagen der Ensemblemitglieder v häufiger im mittleren 
Interquartilsbereich und der näheren Lage der Mittelwert-Linie (acc) an der 
Median-Linie in Abbildung 6.5d. 


Zusammenfassend lässt sich konstatieren, dass die logistische Regres- 
sion bessere Werte für deterministische Scores im Ensemblemittel (z. 
B. H("’), F(&"5)) sowie eine höhere balancierte Genauigkeit ACC als der Ran- 
dom Forest erreicht. Letzterer wiederum reagiert sensibler auf den jeweiligen 
Trainings- und Testdatensatz, weswegen das Ensemble stärker in seinen Vor- 
hersagen für einzelne Zellobjekte variiert. Dadurch ergeben sich bessere Wer- 
te für probabilistische Scores (z. B. BS bzw. BSS) mit dem Random Forest als 


mit der logistischen Regression. 


Einfluss und Wichtigkeit der Prädiktoren 


Bedingte Evaluation 

In der gleichen Darstellungsweise wie in Abbildung 6.5 können die Vorher- 
sagen nach den Werten der Prädiktoren analysiert werden (Abbildungen D.5 
und D.6). So kann nachvollzogen werden, welche Werte der Prädiktoren 
zu welchen Vorhersagen führen und ob die statistischen Modelle dabei Ab- 
weichungen von dem meteorologisch erwartbaren Verhalten zeigen. Damit 


können die Modellvorhersagen auch physikalisch interpretiert werden und 
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Abbildung 6.7: Mittlere Ensemblevorhersage für die Eintrittswahrscheinlichkeit einer langen 
Lebensdauer, aufgeteilt in verschiedene Gruppen der Prädiktoren DLS und Lliooppa, für (a) die 
logistische Regression und (b) den Random Forest. Graue Kreuze geben Gruppen an, in denen 
20 oder weniger Zellobjekte vorliegen. 


das Vertrauen in die Modellvorhersagen gestärkt (oder geschwächt) wer- 
den. Qualitativ zeigt sich bei der logistischen Regression und dem Random 
Forest in der Modellstudie U2_0 dasselbe erwartbare Verhalten: Der An- 
teil von Zellobjekten, die eine L-Vorhersage erhalten, wächst mit steigender 
vertikaler Windscherung und zunehmender Instabilität (sinkendem Llioohpa; 
vgl. Abbildungen D.5a+b und D.6a+b). Interessanterweise erreicht die Vor- 
hersage der Random Forests ab etwa DLS = 12 ms! eine Art Plateau, sodass 
beide Klassen ähnlich häufig vorhergesagt werden. Bei niedriger Windsche- 
rung ist die Vorhersage demnach eindeutiger (meist eine K-Vorhersage). In 
Kombination mit dem Lifted Index wird jedoch deutlich, dass bei mittlerer 
bis hoher Scherung positive (negative) Werte des LIioonpa deutlich niedrige- 
re (höhere) Eintrittswahrscheinlichkeiten für eine lange Lebensdauer hervor- 
rufen (Abbildung 6.7b). 
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Der Anteil von Zellobjekten, die viele Ensemblemitglieder korrekt 
vorhersagen, sinkt mit steigender Scherung und steigender Instabili- 
tät (vgl. Abbildungen D.5c+d, D.6c+d). Dies liegt an dem weiterhin ho- 
hen Anteil von Zellobjekten mit kurzer Lebensdauer auch bei Umgebungs- 
bedingungen, welche die Entwicklung organisierter Konvektion begünsti- 
gen (vgl. Kapitel 5.3.2). Viele Zellobjekte mit kurzer Lebensdauer erhalten 
dadurch fälschlicherweise eine L-Vorhersage. Die deutlich höhere Schwan- 
kungsbreite des Random Forest-Ensembles ist auch hier wieder erkennbar. 
Die Vorhersagen des Ensembles der logistischen Regression hingegen spie- 
geln den sigmoidalen Charakter der Wahrscheinlichkeitsfunktion wider, wel- 
cher auch in der kombinierten Darstellung der Eintrittswahrscheinlichkeiten 
für eine lange Lebensdauer gut zu erkennen ist (Abbildung 6.7a). 

Mit dieser Analyse erhält man darüber hinaus einen Einblick in das deutliche 
Overforecasting von Zellobjekten mit langer Lebensdauer (s.0.): Die 
tatsächlich beobachteten Eintrittswahrscheinlichkeiten hierfür liegen für über 
95 % aller in Abbildung 6.7 gezeigten Gruppen bei unter 5 %. Die Ensembles 
des Random Forests und der logistischen Regression geben jedoch für 
viele Gruppen deutlich höhere Eintrittswahrscheinlichkeiten vor — wenn 
auch auf recht unterschiedliche Art und Weise. Grund hierfür ist die Wahl 
der jeweiligen Entscheidungstrennwerte Urocp = 0,029 und urr = 0,002, 
welche für das Ensemble a priori so gewählt wurden, dass Zellobjekte mit 
langer und kurzer Lebensdauer in etwa gleich gute Vorhersagen erhalten (s. o. 
Fragestellung (B)). Für größere Entscheidungstrennwerte verringern sich 
konsequenterweise die mittleren Vorhersagen für die Eintrittswahrschein- 


lichkeit einer langen Lebensdauer. 


Wichtigkeit der Prädiktoren 

Als Nächstes erfolgt die Untersuchung der Wichtigkeit der Prädiktoren (Pre- 
dictor Importance) für die Modelle des jeweiligen Vorhersageverfahrens. 
Diese gibt Aufschluss darüber, wie groß der relative Einfluss der Prädik- 


toren auf die Vorhersage in der jeweiligen Kombination ist. Dadurch wird 
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das Erstellen einer Rangliste der Prädiktoren ermöglicht, welche wieder- 
um physikalisch interpretiert werden kann. Für die logistische Regressi- 
on sind die Effekt-Koeffizienten Ex relevant, welche aufgrund der Anwen- 
dung der z-Transformation der Prädiktorwerte den standardisierten Effekt- 
Koeffizienten entsprechen (vgl. Kapitel 3.3.2). Für den Random Forest fällt 
hier die Wahl auf die Permutations-Wichtigkeit (vgl. Kapitel 3.4.3). Im Ver- 
gleich zur Gini-Wichtigkeit bringen beide Maße sehr ähnliche Reihenfol- 
gen der Prädiktoren hervor, solange die Prädiktoren vom gleichen Typ 
sind (beispielsweise nur kontinuierliche Prädiktoren; Strobl et al., 2007). Die 
Permutations-Wichtigkeit ist meist etwas homogener verteilt als die Gini- 
Wichtigkeit (Hastie et al., 2009). Zur besseren Vergleichbarkeit mit weite- 
ren Ensembles des Random Forests werden die Werte der Permutations- 
Wichtigkeit jeweils auf den von allen Prädiktoren angenommenen Maximal- 
wert normiert und mit 100 multipliziert. Aufgrund der unterschiedlichen Me- 
thodik zur Bestimmung der Wichtigkeit der Prädiktoren ist ein Vergleich der 
Werte der Effekt-Koeffizienten mit denen der Permutations-Wichtigkeit nicht 
möglich. Vielmehr ist die jeweils relative Wichtigkeit der Prädiktoren inner- 
halb eines Vorhersageverfahrens sowie ein Vergleich der Reihenfolge der Prä- 
diktoren zwischen den Vorhersageverfahren interessant. So kann festgestellt 
werden, welche Prädiktoren einen vergleichsweise großen Einfluss haben und 
ob sich systematische Gemeinsamkeiten in den unterschiedlichen Verfahren 
erkennen lassen, welche das Vertrauen in die Reihenfolge der Prädiktoren in 
den Ranglisten stärken. 

In den bisher diskutierten Modellensembles beider Verfahren ist die verti- 
kale Windscherung bezogen auf den Ensemblemedian die wichtigere Varia- 
ble (Abbildung 6.8). Es gilt sogar Ex prs > Ex r für jedes einzelne Mo- 
dell der logistischen Regression, sodass sich die Wertebereiche der Effekt- 
Koeffizienten nicht überlappen. Im Gegensatz dazu hat bei etwa 18% der 
Random Forest-Modelle die Instabilität eine höhere Wichtigkeit als die Wind- 
scherung und der Median der DLS liegt im Interquartilsbereich des LIjoonPpa- 
Die Wichtigkeit der Prädiktoren stimmt folglich gut mit den Ergebnissen in 
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DLS_am 4 on * DLS_am 4 KS 
LU A1 mini + 1% LLAV1_min4 * . 
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Effekt-Koeffizient Ex Skalierte Permutations-Wichtigkeit 
(a) Modellstudie U2_0 Ensemble (LOGR) (b) Modellstudie U2_0 Ensemble (RF) 


Abbildung 6.8: Wichtigkeit der Prädiktoren in den Ensembles (a) der logistischen Regression 
und (b) des Random Forests. Dargestellt sind der Median des Ensembles (schwarzer Punkt), der 
Interquartilsbereich (Balken) sowie das 5. und 95. Perzentil (Sterne), jeweils bezogen auf das 
entsprechende Maß (Effekt-Koeffizient bzw. skalierte Permutationswichtigkeit). Zusätzlich sind 
die Werte des Medians mit einer blauen Linie verbunden. 


Kapitel 5.3.1 überein, in denen besonders dynamische Größen das größte Un- 
terscheidungsvermögen zwischen Zellobjekten unterschiedlicher Lebensdau- 


er zeigten. 


6.3 Modellstudien zur Vorhersage der 
Lebensdauer 


Dieses Kapitel stellt die Ergebnisse von Modellstudien vor, welche Vorhersa- 
gen für die Lebensdauer der Zellobjekte mittels Klassifikations- oder Regres- 
sionsmethoden für unterschiedliche Kombinationen von Prädiktoren treffen. 
Die ausführlichen Sensitivitätsuntersuchungen aus Anhang B geben Hinwei- 
se für die Datenvorbehandlung und geeignete Setups. Als Prädiktoren fun- 
gieren neben den Umgebungsbedingungen auch Zellattribute zu bestimm- 
ten Zeitpunkten zu Beginn der Zellentwicklung. Jede Modellstudie erhält 
zur Kennzeichnung eine Abkürzung, welche die Prädiktoren charakterisiert 
und im Akronymverzeichnis beschrieben ist. In den Unterkapiteln werden 
die Analysen der Modellstudien zunächst ausführlicher vorgestellt. Im An- 
schluss findet sich jeweils eine kurze Zusammenfassung und Interpretation 


der bedeutendsten Ergebnisse. 
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6.3.1 Evaluation von Klassifikationsverfahren zur Vorhersage 
der Lebensdauer 


Die im Folgenden diskutierten Modellstudien für die logistische Regression 
und den Random Forest unterscheiden sich in der Anzahl und Auswahl der 
Prädiktoren. Das auf der ersten Modellstudie U2_0 basierende allgemeine 
Setup der Modelle der logistischen Regression und des Random Forests un- 
terscheidet sich hauptsächlich darin, dass erstere generell kein Resampling 
erfahren, während für manche Studien mit dem Random Forest ein Resam- 
pling erfolgt. Letzteres wird angewendet, wenn die Ensemblemitglieder selbst 
mit einer großen Anzahl von Entscheidungsbäumen die Vorhersagen nicht 
scharf genug abbilden können (z. B. Abbildung B.3b für hohe Werte des Klas- 
sentrennwerts T) und/oder das Resampling die Vorhersagen im Vergleich zu 
den Modellen ohne Resampling verbessert (s. u.). Die Wahl für die Entschei- 
dungstrennwerte ULoGr bzw. Urr richtet sich in den Ensemblestudien wie 
im Ensemble von U2_0 nach der Balancierung von H und 1—F. Nach einer 
Balancierung des Trainingsdatensatzes mittels eines Resamplings ist u daher 
deutlich höher zu wählen als ohne Balancierung. Damit adressieren die Aus- 
wertungen insbesondere die Fragestellung (B) aus Kapitel 6.2.2 (Zellobjekte 
mit kurzer und langer Lebensdauer sollen gleich gut vorhergesagt werden). 
Als Ergänzung schließt sich am Ende dieses Abschnitts eine Studie an, wel- 
che die dortigen Fragestellungen (A) und (C) näher betrachtet (möglichst gute 
Vorhersagen von Zellobjekten mit langer Lebensdauer bzw. möglichst viele 
korrekte Vorhersagen). 

Im Gegensatz zu U2_0 findet aufgrund der Sensitivitätsuntersuchungen kein 
Bootstrapping der Trainingsdaten statt (vgl. Anhang B). Das Resampling 
erfolgt als Kombination von Undersampling und Oversampling mit 
usp = 0,65, Ni min = 15, Nusp = Nosp = 20 und dem Gauss schen Rau- 
schen als Oversampling-Methode (vgl. Kapitel 3.5.1, 6.1.1 und Anhang B). 
Die gezeigten Modellstudien mit einem Ensemble des Random Forests 


basieren auf Ngaum = 125 Entscheidungsbäumen, während einige der nicht 
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gezeigten Voruntersuchungen ohne Resampling teilweise bis zu 2000 
Bäume verwendeten (s. 0.; vgl. Kapitel 3.5.2). N,,;, entspricht jeweils den in 


Kapitel 3.4.3 und Anhang B genannten Standardwerten zur Klassifikation. 


Im Folgenden werden drei verschiedene Kombinationsmöglichkeiten von 
Prädiktoren betrachtet (Tabelle 6.2): 


(1) Kombinationen von zwei, sechs und 15 Umgebungsvariablen (U2, U6, 
U15). 


(2) Kombinationen von zwei oder vier Zellattributen zu unterschiedlichen 
Zeitpunkten der Zellentwicklung (Z5, Z15, Z15*). 


(3) Kombinationen von zwei bzw. 15 Umgebungsvariablen und zwei 
bzw. vier Zellattributen (Ka K15, K15*). 


Um die Verwendung der Verlagerungsrichtung der Zellobjekte (zyklische 
Variable) als Prädiktor zu ermöglichen, ist die Bestimmung der horizon- 
talen Komponenten cz, und czy des Verlagerungsvektors ¢z zum je- 
weiligen Zeitpunkt notwendig. Zusammengefasst werden die Komponen- 
ten im Folgenden als Verlagerung der Objekte bezeichnet. Die Modell- 
studien Z5 und Z15 greifen nur auf die Information über die Zellflä- 
che Az(t = 7min) bzw. Az(t = 17min) sowie die Fläche des Zellkerns 
Az (t = 7min) bzw. Az (t = 17min) zurück. Die Modellstudie Z15* hin- 
gegen berücksichtigt neben der Zell- und Zellkernfläche zusätzlich die Ver- 
lagerung der Zellobjekte. Der Verlagerungsvektor zum Zeitpunkt der zwei- 
ten Detektion durch KONRAD kann aufgrund der Berechnungsmethodik 
(vgl. Kapitel 4.3.2) nicht adäquat wiedergegeben werden. In Z15 und Z157 
finden nur Zellobjekte Verwendung, die insgesamt mindestens viermal detek- 


tiert wurden (vgl. Kapitel 6.1.1). 
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Detaillierte Analyse der verschiedenen Modellstudien 


In Abbildung 6.9 sind Auswertungen von Ensemblemodellstudien mit den 


jeweils drei ausgewählten Kombinationen von Prädiktoren aus Tabelle 6.2 


für die oben beschriebenen Kombinationsmöglichkeiten (1)—(3) dargestellt. 


Allgemein lassen sich zunächst folgende Auffälligkeiten bezüglich der Vor- 


hersageverfahren festhalten (aufgrund des häufigen Auftretens finden die Ab- 


kürzungen LOGR und RF für die logistische Regression und den Random 


Forest in den nachfolgenden Beschreibungen Anwendung): 


Alle Vorhersagen erreichen bessere Scores als zufällige oder probabi- 
listische Vorhersagen, die für jedes Zellobjekt eine Wahrscheinlichkeit 
von 50 % für eine kurze und 50 % für eine lange Lebensdauer ausge- 


ben (grau gestrichelte Linien in Abbildung 6.9). 


Vorhersagen mit einer Kombination von Umgebungsvariablen und 


Zellattributen erreichen die besten Werte für die Gütemaße (s. u.). 


Die Vorhersagen der RF-Modellensembles weisen eine höhere 
Schwankungsbreite innerhalb des Ensembles Ours auf als diejenigen 
der entsprechenden LR-Modellensembles (Größe der Symbole in Ab- 
bildung 6.9b; vgl. Kapitel 6.2.2). 


Die Schwankungsbreite hängt nur schwach von der Wahl der Prädikto- 


ren ab. 


Die Schwankungsbreite sowie die Variabilität der Fehlerrate F (hori- 
zontale Balken in Abbildung 6.9a) ist für die Ensembles am größten, 
für die ein Resampling erfolgt, da dieses generell kleinere und je nach 
der genauen Verteilung der Werte der Lebensdauer unterschiedlich gro- 


De reduzierte Trainingsdatensätze hervorbringt. 


Die RF-Vorhersagen erreichen eine höhere probabilistische Vorhersa- 
gegüte für die Zellobjekte mit einer langen Lebensdauer als die ent- 
sprechenden LOGR-Vorhersagen (Brier Score BS in Abbildung 6.9b; 
vgl. Kapitel 6.2.2). 
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Abbildung 6.9: Synopse von Modellstudien mit verschiedenen Kombinationen von Prädiktoren 
zur Vorhersage der Lebensdauer. Rötliche Farben markieren Studien, die nur Umgebungsvaria- 
blen als Prädiktoren verwenden und bläuliche solche, die nur Zellattribute verwenden. Grau- 
stufen kennzeichnen kombinierte Studien. Ensemblevorhersagen mittels eines Ensembles der 
logistischen Regression sind mit Kreisen, solche des Random Forests mit Dreiecken darge- 
stellt. (a) Ensemblemittel und zugehöriger Variationsbereich für F und H im ROC-Diagramm 
— Balken entsprechen +o, nu: (b) analog zu Abbildung 6.6. 


e Die Fehlalarmrate F variiert zwischen den Ensemblemitgliedern we- 
niger stark als die Trefferrate H. wenn kein Resampling durchgeführt 
wird (Balken in Abbildung 6.9a). 


Für die Modellstudien mit verschiedenen Kombinationen von Umgebungsva- 
riablen als Prädiktoren (Tabelle 6.2; oben) lässt sich feststellen, dass sich die 
LOGR-Vorhersagen kaum verbessern, wenn mehr als zwei Umgebungsvaria- 
blen aus U2_0 verwendet werden (DLS und Llioohpa). Die RF-Vorhersagen 
verbessern sich hingegen erwartungsgemäß mit zunehmender Anzahl von 
Umgebungsvariablen (vgl. Kapitel 6.1.1). Die Verwendung aller 33 statt 
15 Umgebungsvariablen bringt dagegen nur eine minimale weitere Verbesse- 
rung der Gütemaße (nicht gezeigt). Die RF-Vorhersagen mit 15 Umgebungs- 
variablen erreichen im Ensemblemittel ähnlich gute Werte für die Gütemaße 


wie die LOGR-Vorhersagen (für den BS sogar bessere). 
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Für die Modellstudien mit verschiedenen Kombinationen von Zellattribu- 
ten als Prädiktoren (Tabelle 6.2; Mitte) ist erkennbar, dass die LOGR- und 
RF-Vorhersagen mit der Information über die Zellfläche Az und die Fläche 
des Zellkerns Az,x zum Zeitpunkt 15 min nach der ersten Detektion bessere 
Werte für die Gütemaße erreichen als solche mit der entsprechenden Informa- 
tion zum Zeitpunkt 5 min nach der ersten Detektion. Die Vorhersagen mit der 
zusätzlichen Information der Verlagerung des Zellobjekts verbessern die LO- 
GR-Vorhersagen (RF-Vorhersagen) leicht (deutlich). Die LOGR-Vorhersagen 
erreichen allerdings im Ensemblemittel deutlich bessere Werte für die Güte- 
maße als die entsprechenden RF-Vorhersagen (außer für den BS). 

Für die Modellstudien mit verschiedenen Kombinationen von Umgebungs- 
variablen und Zellattributen als Prädiktoren (Tabelle 6.2; unten) ergibt sich 
schließlich, dass die LOGR- und RF-Vorhersagen in fast allen Fällen besse- 
re Werte für die Gütemaße erreichen als bei der jeweiligen Verwendung von 
Umgebungsvariablen und Zellattributen alleine (Ausnahme: Modellstudie K5 
für LOGR; vgl. Abbildung 6.9b). Die LOGR-Vorhersagen erreichen im En- 
semblemittel meist bessere Werte für die Gütemaße als die entsprechenden 
RF-Vorhersagen (wiederum außer für den BS). In K15* erreichen die LOGR- 


und RF-Vorhersagen allerdings eine ähnlich hohe balancierte Genauigkeit. 


Zusammenfassende Analyse und Interpretation der Ergebnisse 


Anhand dieser Analysen zusammen mit einer bedingten Evaluation für 
K15* (Abbildung 6.10), einer Synopse, bei der die Stärke der relativen Wich- 
tigkeit der Prädiktoren zusammengefasst wird (Abbildung 6.11), sowie der 
ROC-Kurven für die Modellstudie K157, (Abbildung 6.12) lassen sich vie- 
le interessante Aspekte zur Verwendung der beiden Vorhersageverfahren zur 
groben Abschätzung der Lebensdauer (kurz/lang) ableiten. Aufgrund des gro- 
ßen Stichprobenumfangs können diese Ergebnisse als repräsentativ und ro- 


bust für isolierte konvektive Zellen betrachtet werden. 
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Klassenanteil 


—— Vorhersage kurle Lebensdauer' 
— Vorhersage ‘lange Lebensdauer' 


—, Vorhersage urke Lebensdauer 
—— \Vorhersage ‘lange Lebensdauer’ 


Klassenanteil 
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(a) Modellstudie K15* (LOGR) (b) Modellstudie K15* (RF; Klassifikation) 


Abbildung 6.10: Wie Abbildungen 6.5a+b, nur für K15*. 


Ein Ensemble aus LOGR-Modellen (RF-Modellen) mit zwei (15) Um- 
gebungsvariablen und vier Zellattributen ist in der Lage, im Mittel je- 
weils etwas über (unter) 70 % der evaluierten Zellobjekte korrekt einer 
der beiden Lebensdauerklassen zuzuordnen (K15*; Abbildung 6.9a). 
Die balancierte Genauigkeit ACC erreicht für K15* nur Werte um 
65 % (Abbildung 6.9b). Dies liegt insbesondere daran, dass beide Vor- 
hersageverfahren bei einer Balancierung von H und 1—F Zellobjek- 
te mit einer Lebensdauer von etwas unter 45 min bereits häufiger der 
Klasse von Objekten mit einer langen Lebensdauer zuordnen (Abbil- 
dung 6.10; vgl. Kapitel 6.1.2). 


Beide Vorhersageverfahren treffen mit der Information von nur vier 
Zellattributen zum Zeitpunkt 15 min nach der ersten Detektion als Prä- 
diktoren bereits gute Vorhersagen (Z15*). Die Hinzunahme von Um- 
gebungsvariablen verbessert die Gütemaße zwar weiter, der Gewinn ist 


jedoch nicht allzu stark ausgeprägt (K15*). 
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Abbildung 6.11: Wie Abbildung 6.8, nur für (a)+(d) U6, (b)+(e) K15* und (c) K5 (nur logisti- 
sche Regression). Die Abkürzungen der Zellattribute Az, AZ K, cz, und cz y sind mit der Angabe 


der verstrichenen Zeit seit der ersten Detektion (min) in rot eingetragen, Umgebungsvariablen in 
schwarz. 


e Die vertikale Windscherung, insbesondere die DLS, stellt die wichtigs- 
te Umgebungsvariable dar (Abbildung 6.11). In dem RF-Ensemble von 
K15* sind viele dynamische Variablen bedeutsamer im Vergleich zu 
thermodynamischen Variablen. Dies deckt sich mit den Analysen zum 


Unterscheidungsvermögen der Variablen aus Kapitel 5.3.1. 


e Die Zellfläche Az ist für das LOGR-Ensemble das mit Abstand wich- 
tigste Zellattribut sowie insgesamt der wichtigste Prädiktor (Abbildun- 
gen 6.11b+c). Die Fläche des Zellkerns Az x erreicht eine ähnliche 
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Wichtigkeit wie die Windscherung, was sich mit den Analysen zum 
Unterscheidungsvermögen der Variablen hinsichtlich der Lebensdauer 
deckt (vgl. Kapitel 5.3.1). Die Instabilität der Luftmasse und die Verla- 


gerung der Zellobjekte spielen nur eine untergeordnete Rolle. 


Für das RF-Ensemble erreichen die Zellfläche und die Fläche des 
Zellkerns ähnlich hohe Werte für die Permutations-Wichtigkeit wie 
die Windscherung (Abbildung 6.11e). Wenig überraschend sind viele 
dynamische, stark miteinander korrelierte Variablen ähnlich wichtig. 
Auch hier ist die Verlagerung der Zellobjekte in Kombination mit den 


Umgebungsvariablen weniger relevant. 


Mehr als 86 % (80 %) der Zellobjekte mit einer langen Lebensdauer er- 
halten von einem LOGR-Ensemble (RF-Ensemble) eine korrekte Vor- 
hersage, wenn man in Kauf nimmt, dass die Vorhersage der Zellobjekte 
mit einer kurzen Lebensdauer nicht besser als eine zufällige Vorhersage 
ist (F= 50 %; Abbildung 6.12; so Fragestellung (A)). 


Eine simple Vorhersage, die immer eine kurze Lebensdauer vorhersagt, 
erreicht aufgrund des Ungleichgewichts des Datensatzes hinsichtlich 
der Lebensdauer die beste Vorhersagegüte, wenn diese sich auf den 
Anteil von korrekt vorhergesagten Zellobjekten bezieht (PC; s.o. Fra- 
gestellung (C)). 


Die gezeigten Modellstudien stellen lediglich eine Auswahl der durchgeführ- 


ten Untersuchungen dar. Viele der verwendeten Umgebungsvariablen sind 


durch andere, mit ihnen physikalisch verwandte und/oder statistisch stark kor- 


relierte Variablen in den jeweiligen Studien ersetzbar. Externe Variablen wie 


beispielsweise die Tageszeit, Jahreszeit, der Längen- oder Breitengrad der 


registrierten Zellobjekte zeigen bei alleiniger Verwendung als Prädiktoren ei- 


ne gewisse, wenn auch geringe Vorhersagegüte. Kombiniert man sie jedoch 


beispielsweise mit den Prädiktoren aus K15*, lässt sich keine weitere Ver- 


besserung der Vorhersagen der Ensembles der logistischen Regression und 


des Random Forests feststellen (nicht gezeigt). 
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Hit Rate (H) 


0.25 


AUC (LOGR): [0.765, 0.789, 0.803] 
AUC (RF): [0.721, 0.744, 0.775] 


0.0 
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False Alarm Rate (F) 


Abbildung 6.12: ROC-Kurven fiir zehn verschiedene Modelle der logistischen Regressi- 
on (schwarz) und des Random Forests (rot) sowie deren mittlerer Verlauf (dicke Linie) zur Vor- 
hersage der Lebensdauer in der Modellstudie K15}},,. 


6.3.2 Evaluation von Regressionsverfahren zur Vorhersage der 
Lebensdauer 


Die im Folgenden diskutierten Modellstudien für zwei Regressionsverfahren, 
den Polynomansatz aus Kapitel 3.3.3 (Abkürzung in Abbildungen: POLY) 
und den Random Forest, basieren auf denselben Setups und derselben Aus- 
wahl von gezeigten Kombinationen der Prädiktoren wie die Klassifikations- 
verfahren in Kapitel 6.3.1!. Der entscheidende Unterschied ist, dass die bei- 
den Regressionsverfahren nun eine kontinuierliche Vorhersage der Lebens- 
dauer Tz (Wert in Minuten) ermöglichen, statt nur eine Klassifizierung der 
Zellobjekte in zwei Klassen (kurze/lange Lebensdauer) vorzunehmen. Dabei 
findet dasselbe Resampling wie in der Datenvorbehandlung des Random Fo- 


rests als Klassifikationsverfahren Anwendung. Die gezeigten Modellstudien 


! Für den Polynomansatz werden in den kombinierten Modellstudien K5 und K15* stets 
dieselben Prädiktoren wie für den Random Forest gemäß Tabelle 6.2 ausgewählt. 
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mit einem Ensemble des Random Forests verwenden demnach dieselbe An- 
zahl von Ngaum = 125 Entscheidungsbäumen wie die Studien mit den Klas- 
sifikationsverfahren. NA entspricht jeweils den in Kapitel 3.4.3 und An- 
hang B genannten Standardwerten für Regressionsverfahren. 

In den Untersuchungen mit einem Ensemble des Polynomansatzes nehmen 
Instabilitäten der Vorhersagen mit zunehmender Anzahl an Prädiktoren zu, 
d. h. mit steigender Anzahl von unabhängigen Variablen und steigender Ord- 
nung des Polynoms N, (vgl. Kapitel 3.3.3). Umso größer sollte dementspre- 
chend der Regularisierungsparameter & gewählt werden. In den folgenden 
Studien gilt überall einheitlich & = 0,01, was die Vorhersagen mit Poly- 
nomen niedriger Ordnung kaum gegenüber den ungedämpften Lösungen 
verändert und solche höherer Ordnung adäquat dämpft, wie durch Unter- 
suchungen mit verschiedenen Kombinationen von Prädiktoren und Werten 
von o € [10~°; 10°] festgestellt wurde. Die Untersuchungen beinhalten im 
nicht-linearen Ansatz aus Gleichung (3.38) generell keine Mischterme von 
unterschiedlichen unabhängigen Variablen. Die Hinzunahme von quadrati- 
schen Mischtermen zeigte beispielsweise keinen zusätzlichen Gewinn an Vor- 
hersagegüte. Die gezeigten Modellstudien entsprechen einem linearen An- 
satz (N, = 1) oder einem Ansatz fünfter Ordnung (N, = 5). Mit ersterem kann 
die Wichtigkeit der unabhängigen Variablen adäquat quantifiziert werden. Mit 
letzterem zeigte sich in vielen Tests eine (leicht) höhere Vorhersagegüte als 


mit dem linearen Ansatz. 


Detaillierte Analyse der verschiedenen Modellstudien 


Modellstudien basierend auf Umgebungsvariablen 

Der Anstieg der Schärfe der Vorhersagen durch das Resampling lässt 
sich gut mittels U2 erkennen (Abbildung 6.13). Während die mittlere 
Ensemblevorhersage ohne vorheriges Resampling etwa zwischen 12 und 
24 min liegt (Abbildung D.7) und damit die analysierten Unterschiede in 
Kapitel 5.3.2 (Abbildung 5.20a) widerspiegelt, variiert sie mit Resampling 
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Abbildung 6.13: Mittlere Ensemblevorhersage fiir die Lebensdauer (min; Farbskala), aufgeteilt 
in verschiedene Gruppen der Prädiktoren DLS und LIoonpa, für (a) den linearen Polynomansatz 
und (b) den Random Forest in U2 mit Resampling. Graue Kreuze geben Gruppen an, in denen 
20 oder weniger Zellobjekte vorliegen. 


zwischen etwa 40 und 120 (Polynomansatz) bzw. 100min (Random 
Forest). Während die Vorhersageverfahren ohne Resampling demnach für 
Zellobjekte mit einer langen Lebensdauer eine viel zu kurze Lebensdauer 
prognostizieren, sagen sie mit Resampling für solche mit einer kurzen 
Lebensdauer eine viel zu lange Lebensdauer vorher (Abbildungen D.8a+b). 
Das Unterscheidungsvermögen der Vorhersagen ist auch mit Resampling 
weiterhin gering. Ein leichter Anstieg des Unterscheidungsvermögens 
zeigt sich bei der Hinzunahme weiterer Umgebungsvariablen in U6 und 
insbesondere in U15. Bei letzterer beträgt die Differenz des Medians der 
Ensemblevorhersagen für Zellobjekte mit einer Lebensdauer zwischen 
7 und 107 min etwa 15 — 20 min (Abbildungen D.8c-f). Die Werte des 
Balanced Root Mean Squared Errors (BRMSE mit optimalem Wert 0; 
vgl. Kapitel 6.1.2) sinken jeweils leicht mit zunehmender Anzahl von 
Umgebungsvariablen. Sie sollten jedoch nicht zwischen den Vorhersagever- 
fahren verglichen werden, da der BRMSE vom vorhergesagten Wertebereich 


beeinflusst ist, welcher wiederum sehr sensitiv und verfahrensabhängig auf 
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das Resampling reagiert. Je niedriger der ist, desto größer wird der Anteil 
von Zellobjekten mit eher längerer Lebensdauer, sodass der Wertebereich 
der Vorhersagen insgesamt hin zu höheren Werten verschoben wird. Der 
Random Forest erzielt generell deutlich niedrigere Werte für den BRMSE 
einzig durch den Umstand, dass seine Vorhersagen bei gleichem Resampling 


im Median etwa 10 min niedriger sind als die des Polynomansatzes. 


Modellstudien basierend auf Zellattributen oder einer Kombination von 
Umgebungsvariablen und Zellattributen 

Vorhersagen, die mit verschiedenen Kombinationen von Zellattributen zu 
Beginn der Zellentwicklung als Prädiktoren getroffen werden, zeigen eben- 
falls ein maximales Unterscheidungsvermögen von etwa 15 — 20 min (Abbil- 
dung D.9). Noch etwa 5 min mehr lassen sich durch eine Kombination der 15 
Umgebungsvariablen mit den entsprechenden Zellattributen erreichen (Ab- 
bildung 6.14). Der Polynomansatz mit nicht-linearen Termen bis zur fünften 
Ordnung (N, = 5) schneidet dabei noch etwas besser ab als der Random Fo- 
rest, welcher jedoch auch hier wiederum niedrigere (bessere) Werte für den 
BRMSE erzielt (s.o.). Die Vorhersagen zum Zeitpunkt 15 min nach der ers- 
ten Detektion der Zellobjekte durch KONRAD weisen niedrigere Werte für 
den BRMSE auf als die 5min nach der ersten Detektion. Allerdings ist die 
Abnahme hauptsächlich auf das Wegfallen der Intervalle für eine beobachtete 
Lebensdauer von 7 bzw. 12 min zurückzuführen. 

Verlässliche Vorhersagen können auch in diesen Modellstudien nur bedingt 
getroffen werden (Abbildung 6.15): Die Interquartilsbereiche der beobach- 
teten Lebensdauer (Bereich zwischen den mitteldicken blauen Linien) nach 
unterschiedlichen Vorhersagen für die Lebensdauer überlappen sich stark. 
Der bedingte Median der beobachteten Lebensdauer (dicke blaue Linie) liegt 
meist in der Nähe der mittleren Lebensdauer der Zellobjekte des gesamten 
Datensatzes von rund 17 bzw. 31 min, wenn wie in K15* nur Objekte mit 
einer Lebensdauer von mehr als 15 min eingehen (niedrige Auflösung). Le- 


diglich das Ensemble des Random Forests in K15* zeigt eine etwas bessere 
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(c) Modellstudie K15* (POLY; N, = 5) 


Beobachtete Lebensdauer (min) 


(d) Modellstudie K15+ (RF; Regression) 


Abbildung 6.14: Bedingte Histogramme und Quantil-Plots (Likelihood-Base Rate Factorizati- 
on) basierend auf 51 Realisierungen (a,c) des Polynomansatzes mit N, = 5 und (b,d) des Random 
Forests in (a,b) K5 bzw. (c,d) K15*. Für jede beobachtete Lebensdauer ist die bedingte relative 
Häufigkeit der Lebensdauer-Vorhersagen in Graustufen dargestellt, d. h. die Häufigkeiten addie- 
ren sich in jeder Spalte zu 1 auf. Bereiche von beobachteten Werten für die Lebensdauer, die von 
weniger als 20 Zellobjekten vertreten werden, sind durch graue Kreuze markiert. Der Median ist 
als dicke rote Linie, die Werte für das 25. und 75. Perzentil sind als dünne rote Linien, und die für 
das 5. und 95. Perzentil als gestrichelte rote Linien eingetragen. Eine perfekte, deterministische 
Vorhersage würde der Diagonalen folgen. Links oben sind jeweils die Werte des BRMSE ergänzt. 


Auflösung. Sagt das Ensemble im Mittel eine lange Lebensdauer von mehr 
als 100 min voraus, so ist folglich deutlich wahrscheinlicher eine mittellange 
oder lange Lebensdauer zu erwarten als nach der Vorhersage einer kurzen Le- 
bensdauer. Generell ist jedoch in beiden Studien ein starkes Overforecasting 
zu erkennen, da der bedingte Median der Beobachtungen deutlich niedriger 
als die vorhergesagten Ensemblemittelwerte für die Lebensdauer ist. 
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Abbildung 6.15: Bedingte Histogramme und Quantil-Plots (Calibration-Refinement Factorizati- 
on) basierend auf 51 Realisierungen (a,c) des Polynomansatzes mit N, = 5 und (b,d) des Random 
Forests in (a,b) K5 bzw. (c,d) K15*. Für jede vorhergesagte Lebensdauer (Ensemblemittel) ist die 
bedingte relative Häufigkeit der Lebensdauer-Beobachtungen in Graustufen dargestellt, d. h. die 
Haufigkeiten addieren sich in jeder Spalte zu | auf. Sonst analog zu Abbildung 6.14. 


Zusammenfassende Analyse und Interpretation der Ergebnisse 


Die kontinuierliche Vorhersage der Lebensdauer stellt sich mit den multiva- 
riaten Verfahren als schwierig heraus. Das maximale Unterscheidungsverm6- 
gen der Vorhersagen liegt bei etwa 25 min, d.h. die Vorhersagen der Verfah- 
ren liegen fiir Zellen mit einer kurzen Lebensdauer von nur etwa einer Vier- 
telstunde im Median etwa 25 min niedriger als die Vorhersagen fiir Zellen, 


die anschlieBend eine lange Lebensdauer von mehr als anderthalb Stunden 
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erreichten. In den gezeigten Studien tritt zudem ein stark ausgeprägtes Over- 
forecasting auf, verlässliche Vorhersagen lassen sich nur bedingt treffen. Das 
Ensemble des Random Forests in der kombinierten Studie K15* zeigt dabei 
die beste Auflösung. 

Das Modellensemble der jeweiligen Vorhersageverfahren kann auch als mul- 
tivariates Analyse-Tool verstanden werden, welches die univariaten Analysen 
der Lebensdauer bezogen auf verschiedene Zellattribute in Kapitel 5.3.1 (Ab- 
bildung 5.5) und die uni- und bivariaten Analysen bezogen auf verschiede- 
ne Umgebungsvariablen in Kapitel 5.3 erweitert. Aus Abbildung 6.15 lassen 
sich Eintrittswahrscheinlichkeiten für die Lebensdauer in Abhängigkeit von 
der jeweiligen Vorhersage des Ensemblemittels ablesen. Eine prognostische 
Anwendung könnte so aussehen, dass bei gegebenen Nens Vorhersagen ei- 
nes Modellensembles entweder eine probabilistische Vorhersage der Lebens- 
dauer direkt anhand der einzelnen Ensemblevorhersagen getroffen wird, oder 
der Ensemblemittelwert bestimmt wird und im Anschluss die Eintrittswahr- 
scheinlichkeiten aus Abbildung 6.15 als probabilistische Vorhersage dienen. 
Der Blick auf die Wichtigkeit der Prädiktoren zeigt, dass auch in den Re- 
gressionsverfahren dynamische Umgebungsvariablen mehr Einfluss haben 
als thermodynamische (Abbildung 6.16). In U6, in dem aus jedem Cluster 
aus Abbildung 5.14b eine Variable als Prädiktor dient, sind sowohl für den 
Polynomansatz als auch für den Random Forest die DLS und die SRHo_3km 
am bedeutsamsten. In der Kombination der 15 am besten unterscheiden- 
den Umgebungsvariablen (Tabelle 5.1) mit den Zellattributen zum Zeitpunkt 
5 bzw. 15 min nach der ersten Detektion ist neben einigen eng miteinander 
zusammenhängenden dynamischen Variablen besonders die Fläche des Zell- 
kerns Az x wichtig, für den Random Forest belegt sie sogar den ersten Rang 
der skalierten Permutations-Wichtigkeit, wie schon bei den Modellstudien zur 
Klassifikation (vgl. Abbildung 6.11e). Die Verlagerung der Zellobjekte spielt 


hingegen auch hier keine große Rolle. 
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Abbildung 6.16: Wie Abbildung 6.11, nur fiir den linearen Polynomansatz und den Random 
Forest (Regression) in (a)+(c) U6, und (b)+(d) K15*. 


Einschub: Vorhersage mittels des Parabelansatzes und des 
Strömungsfeldansatzes 


Vorhersage mittels des Parabelansatzes 

Wie in den Kapiteln 5.1.2 und 5.3.1 erwähnt, kann der dort beschriebene Pa- 
rabelansatz zur Vorhersage der zu erwartenden Lebensdauer sowie der maxi- 
malen Zellfläche angewendet werden. Ist zu einem bestimmten Zeitpunkt das 
Alter t (min) und die Fläche Az (km?) eines Zellobjekts bekannt, kann die 
zu erwartende Lebensdauer deterministisch abgeschätzt und die Variabilität 


der Abschätzung über eine Fehlerrechnung quantifiziert werden (Anhang C). 
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Dabei bestätigt sich qualitativ die Folgerung aus Kapitel 5.1.2, dass sich al- 
leine auf der Basis des vorgestellten Parabelansatzes eine (deterministische) 
Abschätzung der zu erwartenden Lebensdauer von konvektiven Zellen, insbe- 
sondere innerhalb der ersten halben Stunde, als eher schwierig erweist. Der 
Grund dafür ist, dass die Flächenentwicklungen der Zellobjekte mit einer un- 
terschiedlich langen Lebensdauer sehr dicht beieinander liegen und kleine 
Abweichungen der Zellattribute einen großen Einfluss auf die verbleibende 
Lebensdauer haben (vgl. Abbildung 5.8a). 

Wie sich dies quantitativ darstellt, wird mit der gleichen Vorgehensweise und 
demselben grundlegenden Algorithmus wie für die übrigen Vorhersagever- 
fahren untersucht (vgl. Kapitel 6.1.1). Das Alter und die korrespondierende 
Zellfläche der Zellobjekte Az(t) dienen als Prädiktoren, welche keine 
Transformation erfahren. Jedes Ensemblemitglied bildet auf der Basis 
eines Trainingsdatensatzes — ohne Anwendung eines Resamplings — sein 
eigenes Parabelmodell, indem es die Koeffizienten U4 und ca bestimmt, 
wie in Kapitel 5.1.2 beschrieben. Anschließend findet Gleichung (C.1) 
Verwendung, um die Lebensdauer Tz für jedes Zellobjekt im jeweiligen 
Testdatensatz abzuschätzen. Die Modelle berechnen nur Vorhersagen, wenn 
Az(t) < 0,99 Azris(t) ist. 


Es zeigt sich, dass die Vorhersagen in den Modellstudien basierend auf 
dem Parabelansatz (PA) die Lebensdauer vieler Zellobjekte stark un- 
terschätzen (Abbildungen 6.17a+c). Zeitpunkte für die Vorhersage sind 
t = 7 und 17 min, also 5 bzw. 15 min nach der ersten Detektion der Zellen 
durch KONRAD (Z5 bzw. Z15). Zellobjekte mit einer kürzeren Lebensdauer 
werden a priori aussortiert (vgl. Kapitel 6.1.1). Die Werte für das 75. Per- 
zentil der prognostizierten Lebensdauer steigen und die des BRMSE sinken 
mit späteren Zeitpunkten für die Vorhersage zwar, sodass die Vorhersagen 
für t = 17 min beispielsweise nur einen Wert von BRMSE = 40,4 min auf- 
weisen (Abbildung 6.17c). Dennoch ist das Unterscheidungsvermögen der 


Vorhersagen, dargestellt durch die Variation des Medians der Vorhersagen, 


287 


6 Vorhersageverfahren: Entwicklung und Evaluation 


J Sa ji i KN 0.25 J a 0.25 
1407 BRMSE=524min N oo. 140 | BRMSE = 34.6 min Us 
E1205 0.2 0.2 
3 E E 
$ 1004 © © 
S 0158 015 Ẹ 
o > =} 
EA 8 2 
2 g g 
5 604 5 015 
D © © 
S 404 i s 
2 0.05 0.05 
= 204 0.02 0.02 
L 0 = 0 
0+ T T T T T T T 0+ T T T T T T T 
0 20 40 60 80 100 120 140 0 20 40 60 80 100 120 140 
Beobachtete Lebensdauer (min) Beobachtete Lebensdauer (min) 
(a) Modellstudie Z5 (PA) (b) Modellstudie Z5 (SF) 
| i DCK 0.25 J ER 0.25 
_ 10] BRMSE = 40.4 min ` 10] BRMSE = 27.6 min 
z d E 
£1204 AR E1204 Se 
3 es 5 
3100 - g 81004 © 
g ose 2 015 = 
2 80+ = Bso z 
8 ZS = 
2 SZ e g 
2 604 o1 £ Sei nu £ 
D 2 3 3 
> 404 = 3 404 " 
© 0.05 © 0.05 
2 £ 
£ 204 0.02 £ 204 0.02 
Bi 0 0 
0+ T T 7 T T 7 T Di T T 7 T T 7 7 
0 20 40 60 80 100 120 140 0 20 40 60 80 100 120 140 
Beobachtete Lebensdauer (min) Beobachtete Lebensdauer (min) 
(c) Modellstudie Z15 (PA) (d) Modellstudie Z15 (SF) 


Abbildung 6.17: Wie Abbildung 6.14, nur basierend auf 51 Realisierungen (a,c) des Parabel- 
modells und (b,d) des Modells basierend auf dem Strömungsfeldansatz. Als Prädiktor wird aus- 
schließlich die Zellfläche zum Zeitpunkt der (a,b) zweiten (Az(t = 7 min); Z5) bzw. (c,d) vierten 
(Az(t = 17min); Z15) Detektion verwendet. 


mit ca. 10 — 15 min recht gering. Damit liegt dieses Intervall in einem ähn- 
lichen Bereich wie das Unterscheidungsvermögen des Polynomansatzes und 
des Random Forests in U2 (s. o.). Auch die Schärfe der Vorhersagen ist über- 
schaubar. 

Das niedrige Unterscheidungsvermögen wird durch die oben diskutierte 
Eigenschaft begünstigt, dass die Kurven der Parabeln, die zu unter- 
schiedlichen Werten für die Lebensdauer gehören, gerade zu Beginn der 
Zellentwicklung bedingt durch die Konstruktion des Ansatzes in einem recht 


engen Intervall zwischen ua und Az ķrir(t) und darin sehr dicht beieinander 
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liegen (vgl. Abbildung 5.8a; Kapitel 5.1.2). Die real beobachteten Entwick- 
lungen der Zellfläche sind jedoch deutlich weniger glatt als die idealisierten 
Parabeln, sodass es durch das Modell bei kleinen Unterschieden von Az 
zu großen Unterschieden in der Vorhersage kommen kann (Tabelle C.1). 
Verlässliche Vorhersagen mit einer adäquaten Auflösung können daher nicht 
erwartet werden (Abbildung D.10). 


Vorhersage mittels des Strömungsfeldansatzes 

Die Anwendung des Strömungsfeldansatzes zur quantitativen Untersuchung 
der Vorhersagegüte erfolgt mit der gleichen Vorgehensweise und demselben 
grundlegenden Algorithmus wie für die übrigen Vorhersageverfahren (vgl. 
Kapitel 6.1.1). Das Alter £ und die korrespondierende Zellfläche Az(t) 
der Zellobjekte dienen wie bei der Untersuchung des Parabelansatzes als 
Prädiktoren, welche keine Transformation erfahren. Jedes Ensemblemitglied 
bildet auf der Basis eines Trainingsdatensatzes — ohne Anwendung eines Re- 
samplings — sein eigenes Strömungsfeld, wie in den Gleichungen (5.5)—(5.7) 
dargestellt ist (Kapitel 5.1.2). Anschließend findet Gleichung (5.8) An- 
wendung, um die Lebensdauer Tz für jedes Zellobjekt im jeweiligen 


Testdatensatz über den Verlauf der entsprechenden Stromlinie abzuschätzen. 


Es zeigt sich, dass die Vorhersagen in den Modellstudien basierend auf 
dem Strömungsfeldansatz (SF; Abbildungen 6.17b+d) die Lebensdauer der 
Zellobjekte besser abschätzen als diejenigen, die auf dem Parabelansatz 
basieren. Die Werte des BRMSE liegen um 10 — 15 min niedriger. Während 
die Modelle die Lebensdauer der Zellobjekte sogar leicht überschätzen, 
die weniger als etwa 40min von KONRAD beobachtet wurden, pro- 
gnostizieren sie Objekten mit einer längeren Lebensdauer meist eine zu 
kurze Lebensdauer. Das Unterscheidungsvermögen der Vorhersagen ist mit 
ca. 20 — 25 min höher als die der Parabelmodelle und liegt im Bereich des 
Polynomansatzes und des Random Forests in K15*. Gerade Vorhersagen 


für Zellobjekte mit einer langen Lebensdauer von mehr als 40 min können 
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jedoch kaum unterschieden werden. Ahnlich wie fiir die Vorhersagen des 
Random Forest-Ensembles lässt sich dem Strömungsfeldansatz dennoch 
zumindest eine gewisse Auflösung attestieren (Abbildung D.10). Die längste 
vorhergesagte Lebensdauer liegt jedoch gerade einmal bei etwa Tz = 80 min. 
Dies lässt sich auf die geringere Anzahl von Zellobjekten in den jeweiligen 
Trainingsdatensätzen fr,N der Ensemblemitglieder im Vergleich zur Analyse 
des gesamten Datensatzes zurückführen. Die geringere Anzahl führt dazu, 
dass durchgehende Stromlinien für einen weniger großen Bereich im 
Zellalter-Zellfläche-Raum Z als für den gesamten Datensatz existieren, in 
dem durchgehende Stromlinien bis etwa Tz = 130 min berechnet werden 
können (vgl. Abbildung 5.9). 


Ausblick: Berücksichtigung von Umgebungsvariablen im Parabelansatz 
und dem Strömungsfeldansatz 

Eine Verfeinerung des Parabelansatzes durch die Berücksichtigung einer Um- 
gebungsvariablen wie z. B. dem LI könnte gewinnbringend sein (Kapitel 5.3.1 
und Anhang C). Eine Erweiterung des Parabelmodells auf mehr als eine Um- 
gebungsvariable in der vorgestellten Art und Weise stellt keine reale Option 
dar, da der Datensatz mit 38553 Zellobjekten — davon aber nur 1096 mit 
einer Lebensdauer von mehr als 60 min — dafür nicht ausreichend ist. Quan- 
titative Modellstudien der Variante mit einer Umgebungsvariablen wurden 
bislang nicht durchgeführt. Der vorgestellte Ansatz zur Integration einer Um- 
gebungsvariablen ist technisch sehr simpel in der Handhabung und der DWD 
könnte diesen mit wenig Aufwand in bereits bestehende Verfahren einarbei- 
ten. Einzig die Bestimmung der Werte der Umgebungsvariablen erfordert eine 
Verbindung des Nowcasting-Verfahrens zu Feldern, welche die NWV liefert. 
Die Modellstudie SF wurde bereits unter Berücksichtigung des LI unter- 
sucht (nicht gezeigt). Eine solche Untersuchung kann beispielsweise auf zwei 
separaten Strömungsfeldern für LIjoohpa < —1 K und LIjoonpa > —1 K ba- 


sieren, welche je nach beobachtetem Wert des Llioohpa eines Zellobjekts im 
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Testdatensatz zur Vorhersage der Lebensdauer Verwendung finden. Für Zell- 
objekte mit einer kurzen Lebensdauer von weniger als etwa 40 min führt dies 
zu einer leichten Verbesserung der Vorhersage, während weniger häufig hohe 
Werte für die Lebensdauer vorhergesagt werden. Der BRMSE liegt in diesem 
Fall sogar höher als in der Untersuchung mit nur einem Strömungsfeld pro 
Ensemblemitglied unabhängig vom LI;oonpa- Dies lässt sich damit erklären, 
dass durch die Aufteilung in zwei Strömungsfelder noch weniger Zellobjekte 
zur Erstellung des Strömungsfelds vz beitragen können. Somit liegen Ten- 
denzen für höhere Zellalter nur sporadisch vor, sodass selten mehr als zehn 
Objekte zu einem Teilgebiet des Zellalter-Zellfläche-Raums Z beitragen. Die 
Stromlinien reichen folglich erst gar nicht zu hohen Werten für die Lebens- 
dauer. Beispielsweise reichen die Vorhersagen im Fall LIıoohpa < —1 K nur 
bis etwa Tz = 70 min, sodass hohe Werte für die Lebensdauer nicht prognos- 
tiziert werden. Ein solcher Ansatz lässt sich demnach nur mit einer größeren 
Stichprobe adäquat testen und anwenden, insbesondere mit einer deutlich hö- 


heren Anzahl von Zellobjekten mit einer langen Lebensdauer. 


6.4 Modellstudien zur Vorhersage der maximalen 
Zellfläche 


6.4.1 Evaluation von Klassifikationsverfahren zur Vorhersage 
der maximalen Zellfläche 


Analog zu den Modellstudien zur Untersuchung der Ensemblevorhersagen 
für den binären Prädiktanden kurze/lange Lebensdauer von Zellobjekten (Ka- 
pitel 6.3.1) folgt eine Auswertung ähnlicher Studien zur Vorhersage der zu 
erwartenden maximalen Zellfläche Az max (Tabelle 6.3). Nach der Diskussion 
der Vorhersagen für die Lebensdauer in den vorigen Abschnitten beschrän- 
ken sich die folgenden Untersuchungen auf eine Auswahl von fünf Studien, 


anhand derer die wesentlichen Aspekte der Evaluation präsentiert werden. 
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Der Klassentrennwert, der zwischen räumlich begrenzten (kleinen) und aus- 
gedehnten (großen) Zellobjekten unterscheidet, ist X = 60 km? mit einer hal- 
ben Breite des Ubergangsbereichs von x’ = 10 km?, sodass Zellobjekte mit 
einer maximalen Zellfläche zwischen x — x’ = 50km? und x+x’ = 70 km? 
nicht in die Berechnung der Gütemaße eingehen. Durch diese Wahl von x 
beträgt das Klassenverhältnis px ~ 2,7 % — ähnlich wie in den Untersuchun- 
gen zur Lebensdauer. Auch die Anzahl von evaluierten kleinen und großen 
Zellobjekten ist durch die Wahl von x’ ähnlich wie in den genannten Un- 
tersuchungen. Erfolgt die Anwendung eines Resamplings, so geschieht dies 
für die folgenden Studien in Bezug auf die Verteilung der maximalen Zellflä- 
che (vgl. Kapitel 3.5.2 und 6.1.1). 


Detaillierte Analyse der verschiedenen Modellstudien 


Die Vorhersagen der maximalen Zellfläche, die nur mit Umgebungsvariablen 
als Prädiktoren getroffen werden, erreichen leicht bessere Werte für verschie- 
dene Gütemaße als analoge Vorhersagen der Lebensdauer (Abbildung 6.18; 
vgl. Abbildung 6.9). In den Untersuchungen zum Unterscheidungsvermögen 
der Umgebungsvariablen hinsichtlich der Lebensdauer und der maximalen 
Zellfläche (Kapitel 5.3.1) erzielten die Umgebungsvariablen bei der Lebens- 
dauer bessere Gütemaße als bei der maximalen Zellfläche, was zum Teil mit 
der Wahl der dortigen Klassentrennwerte zusammenhängt. Darüber hinaus 
können nicht-lineare und schwer nachvollziehbare Ursachen die Vorhersagen 
beeinflussen, sodass die Gütemaße der Vorhersagen für die maximale Zellflä- 
che hier leicht bessere Werte erzielen. In U2 mit der logistischen Regression 
erreichen die DLS und der LIjoonpa einander ähnliche Effekt-Koeffizienten, 
und in Ul5 mit dem Random Forest sind dynamische und thermodynamische 
Variablen etwa gleich wichtig (nicht gezeigt). Vorhersagen der maximalen 
Zellfläche, die nur mit Zellattributen zu Beginn der Zellentwicklung als Prä- 


diktoren getroffen werden, erzielen deutlich bessere Werte für verschiedene 
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Abbildung 6.18: Analog zu Abbildung 6.9, nur mit der maximalen Zellfläche als Prädiktand. 


Gütemaße als analoge Vorhersagen der Lebensdauer. Insbesondere ist bemer- 
kenswert, dass sich die maximale Zellfläche zum Zeitpunkt 15 min nach der 
ersten Detektion durch KONRAD allein auf der Basis der Zellattribute viel 
besser abschätzen lässt als die Lebensdauer durch eine Kombination von Zell- 
attributen und Umgebungsvariablen. Auch in Z5 erreichen die Gütemaße zur 
Vorhersage der Zellfläche höhere Werte als für die Lebensdauer. Hier pro- 
fitieren die Vorhersagen zudem von der Information über die vorherrschen- 
den Umgebungsbedingungen (K5), während sie schon zum Zeitpunkt 15 min 
nach der ersten Detektion kaum mehr einen zusätzlichen Gewinn bringen. 
Zu Beginn der Zellentwicklung sind daher die Umgebungsvariablen zur Ab- 
schätzung der maximalen Zellfläche nützlich, während im weiteren Verlauf 
fast ausschließlich die Zellhistorie relevant ist. 

Die ROC-Kurven für Z5 und Z15* zeigen, dass beide Vorhersageverfahren 
gut zwischen kleinen Zellobjekten mit einer maximalen Zellfläche von we- 
niger als 50km? und großen Zellobjekten mit einer maximalen Zellfläche 
von mehr als 70 km? differenzieren können (Abbildung 6.19). Dabei erzielt 
die logistische Regression leicht höhere Werte für die AUC. Die Zuordnung 


294 


6.4 Modellstudien zur Vorhersage der maximalen Zellfläche 


der großen Objekte ist zu mehr als 94 % korrekt, wenn man eine indifferente 
Trefferrate von nur 50 % für die kleinen Zellobjekte in Kauf nimmt (analog zu 
Fragestellung (A) aus Kapitel 6.2.2). Die ROC-Kurven verlaufen im Bereich 
niedriger F-Werte sehr steil, sodass für die logistische Regression (den Ran- 
dom Forest) bei F% 0,07 etwas mehr (weniger) als drei Viertel aller großen 
Zellobjekte korrekt abgeschätzt werden (analog zu Fragestellung (C)). Für 
große Trennwerte u sind damit trotz des Ungleichgewichts des Datensat- 
zes bezüglich der maximalen Zellfläche sogar Werte für das Fehlalarmver- 
hältnis FAR von deutlich weniger als 0,5 bei gleichzeitigem Erreichen von 
H> 0,5 möglich. Durch die Erweiterung des Wertebereichs der Entschei- 
dungstrennwerte im Vergleich zur Modellstudie K15* ergibt sich für jeweils 


ein exemplarisches Modell beispielsweise: 


urr =0,210 => FAR=0,365; H = 0,641 
urr =0,282 => FAR=0,153; H=0,59 
urr =0,330 => FAR=0,128; H=0,607. (6.8) 


Dies ist bei den Vorhersagen der Lebensdauer nicht realisierbar. 


Zusammenfassende Analyse und Interpretation der Ergebnisse 


Die Abschätzung einer binären Klasse für die maximale Zellfläche zur Unter- 
scheidung von räumlich wenig und weit ausgedehnten Zellobjekten erreicht 
mit beiden Klassifikationsverfahren teilweise wesentlich bessere Gütemaße 
als für die Lebensdauer. Im Vergleich zur Klassifikation der Lebensdauer ist 
die Abschätzung der maximalen Zellfläche deutlich von der Zellfläche Az zu 
Beginn der Zellentwicklung bestimmt, d. h. die relative Wichtigkeit von Um- 
gebungsvariablen als Prädiktoren in Kombination mit der Information über 
die Zellfläche in einem Ensemble der logistischen Regression oder des Ran- 
dom Forests ist geringer (Abbildung 6.20). Dies deckt sich mit den Analy- 


sen zum Unterscheidungsvermögen der Variablen hinsichtlich der maximalen 
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Abbildung 6.19: Wie Abbildung 6.12, nur mit der maximalen Zellfläche als Prädiktand. 
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Abbildung 6.20: Wie Abbildung 6.11, nur mit der maximalen Zellfläche als Prädiktand 


in (a)+(c) K15* und (b) K5 (LOGR). 


Zellfläche (vgl. Kapitel 5.3.1). Des Weiteren bedeutet dieses Ergebnis, dass 


insbesondere die Entwicklung der Fläche einer konvektiven Zelle zu Beginn 


ihres Lebenszyklus bereits auf ihre maximale Zellfläche hindeutet, die sie im 
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weiteren Verlauf erreichen wird (vgl. Kapitel 5.1.2). Dennoch verbessert die 
Information über die Umgebungsvariablen die Prognosen in der ersten Vier- 
telstunde der Zellentwicklung merklich, insbesondere für ein Ensemble des 
Random Forests, während im weiteren Verlauf fast ausschließlich die Zellhis- 


torie relevant ist. 


6.4.2 Evaluation von Regressionsverfahren zur Vorhersage der 
maximalen Zellfläche 


Detaillierte Analyse der verschiedenen Modellstudien 


Analog zu Kapitel 6.3.2 werden nachfolgend dieselben fünf Modellstudien 
wie für die Klassifikationsverfahren mit zwei Klassen der maximalen Zell- 
fläche Az max als Prädiktand vorgestellt (vgl. Tabelle 6.3). Auch hier lässt sich 
der Anstieg der Schärfe der Vorhersagen durch das Resampling gut mittels U2 
erkennen (Abbildung 6.21). Während die mittlere Ensemblevorhersage ohne 
vorheriges Resampling etwa zwischen 23 und 35 km? liegt (Abbildung D.7) 
und damit die analysierten Unterschiede in Kapitel 5.3.2 (Abbildung 5.22a) 
widerspiegelt, variiert sie mit Resampling zwischen etwa 30 und 90 (Poly- 
nomansatz) bzw. 80km? (Random Forest). Ohne Resampling prognostizie- 
ren die Modelle Objekten mit einer großen Zellfläche meist eine zu kleine 
Fläche, mit Resampling sagen sie Objekten mit einer kleinen Zellfläche ei- 
ne zu große Fläche vorher (Abbildungen D.12a+b). Wie bei der Vorhersage 
der Lebensdauer ist das Unterscheidungsvermögen der Vorhersagen auch mit 
Resampling weiterhin gering. Die Hinzunahme weiterer Umgebungsbedin- 
gungen als Prädiktoren führt nur zu einem sehr geringen Anstieg des Unter- 
scheidungsvermögens, wie sich in U6 und U15 zeigt (Abbildungen D.12c-f). 
Die Werte des BRMSE sinken jeweils kaum mit zunehmender Anzahl von 


Umgebungsvariablen. 
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Abbildung 6.21: Wie Abbildung 6.13, nur mit der maximalen Zellfläche Az max (km?; Farbskala) 
als Prädiktand. 


Vorhersagen, die mit verschiedenen Kombinationen von Zellattributen zu Be- 
ginn des Lebenszyklus als Prädiktoren getroffen werden, zeigen ein deutlich 
besseres Unterscheidungsvermögen (Abbildung D.13). Die Modelle prognos- 
tizieren Zellobjekten mit einer kleinen Zellfläche auch hier zu große Zell- 
flächen. Diese fallen jedoch insbesondere für die häufig auftretenden, sehr 
kleinen Zellobjekte deutlich kleiner aus als in den Studien mit den Umge- 
bungsvariablen, insbesondere in den Untersuchungen mit dem Random Fo- 
rest. Die Vorhersagen in Z15* sind für beide Vorhersageverfahren nochmals 
besser als in Z5, d.h. 15 min nach der ersten Detektion einer Zelle durch 
KONRAD unterscheiden sich die Entwicklungen von klein bleibenden und 
groß anwachsenden Zellobjekten deutlich. 

Das beste Unterscheidungsvermögen lässt sich auch hier durch eine Kom- 
bination der 15 Umgebungsvariablen mit den entsprechenden Zellattri- 


buten erreichen, wenn auch die Umgebungsvariablen nur einen geringen 
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(c) Modellstudie K15* (POLY; Np =5) 
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Abbildung 6.22: Wie Abbildung 6.14, nur mit 
Prädiktand. 
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(b) Modellstudie K5 (RF; Regression) 
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(d) Modellstudie K15+ (RF; Regression) 


der maximalen Zellfläche Az max (km?) als 


Einfluss haben, wie die ähnlichen Werte des BRMSE andeuten (Abbil- 


dung 6.22; s.u.). Der Polynomansatz mit nicht-linearen Termen bis zur fünf- 


ten Ordnung (N, = 5) weist dabei eine höhere Schärfe als der Random Fo- 


rest auf, welcher dafür auch hier wiederum niedrigere (bessere) Werte für 


den BRMSE erzielt. Auch ein linearer Polynomansatz mit N, = 1 führt be- 


reits zu sehr ähnlichen Vorhersagen (nicht gezeigt). Die Vorhersagen zum 


Zeitpunkt 15 min nach der ersten Detektion weisen niedrigere Werte für den 
BRMSE auf als die 5 min nach der ersten Detektion. Die Abnahme ist hier 
neben dem Wegfallen der Intervalle für eine beobachtete Lebensdauer von 


7 bzw. 12min auf eine deutliche Reduzierung der Vorhersagen von großen 
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Abbildung 6.23: Wie Abbildung 6.15, nur mit der maximalen Zellfläche Az max (km?) als 
Prädiktand. 


Zellflächen zurückzuführen. Verlässliche Vorhersagen für die maximale Zell- 
fläche können im Gegensatz zu äquivalenten Vorhersagen der Lebensdauer 
unter Berücksichtigung des Overforecastings gut getroffen werden (Abbil- 
dung 6.23; vgl. Abbildung 6.15). Die gute Auflösung der Vorhersagemodelle 
ist an dem sichtbaren Anstieg der Beobachtungen entsprechend zu den jewei- 
ligen Vorhersagen zu erkennen. Die Interquartilsbereiche und sogar die Be- 
reiche zwischen dem 5. und dem 95. Perzentil der beobachteten maximalen 
Zellfläche (Bereiche zwischen den mitteldicken bzw. dünnen grünen Linien) 
nach unterschiedlichen Vorhersagen für die maximale Zellfläche überlappen 
sich in K15* deutlich weniger als für die Vorhersage der Lebensdauer. Der 
bedingte Median der beobachteten maximalen Zellfläche (dicke grüne Linie) 
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weicht teilweise deutlich vom Mittelwert der Zellfläche des gesamten Da- 
tensatzes von 28 bzw. 36km? ab, wenn wie in K15+ nur Objekte mit einer 
Lebensdauer von mehr als 15 min eingehen. Die Auflösung für die Vorher- 
sagen der maximalen Zellfläche in der Modellstudie K5 ist sogar besser als 
die für die Vorhersagen der Lebensdauer in K15* (vgl. Abbildung 6.15). Die 
maximale Zellfläche kann demnach 5 min nach der ersten Detektion der Zel- 
le bereits verlässlicher abgeschätzt werden als die Lebensdauer 15 min nach 
der ersten Detektion. Insbesondere mit dem Ensemble des Random Forests 
in K15* besteht eine hohe Verlässlichkeit der Vorhersagen sowohl für K5 als 
auch K15*, d.h. die Eintrittswahrscheinlichkeit von Zellobjekten mit einer 
großen Zellfläche ist bei Vorhersagen größerer Zellflächen sehr hoch und bei 


solchen einer kleineren Zellfläche sehr gering. 


Zusammenfassende Analyse und Interpretation der Ergebnisse 


Die Schlussfolgerungen der Modellstudien mit den Klassifikationsverfahren 
lassen sich auf die Regressionsverfahren übertragen (vgl. Kapitel 6.4.1). Nach 
der ersten Detektion einer Zelle durch KONRAD unterscheiden sich die Ent- 
wicklungen von klein bleibenden und groß anwachsenden Zellobjekten deut- 
lich, sodass verlässliche Vorhersagen getroffen werden können. Die maxima- 
le Zellfläche kann somit bereits 5min nach der ersten Detektion der Zelle 
besser abgeschätzt werden als die Lebensdauer 10 min später. Der Blick auf 
die Wichtigkeit der Prädiktoren zeigt, dass auch in den Regressionsverfahren 
zur Vorhersage der maximalen Zellfläche thermodynamische und dynami- 
sche Umgebungsvariablen einen ähnlichen, wenn auch geringen Einfluss ha- 
ben (Abbildung 6.24). In U6, in dem aus jedem Cluster aus Abbildung 5.14b 
eine Variable als Prädiktor dient, ist sowohl für den Polynomansatz als auch 
für den Random Forest der LIioohpa am bedeutsamsten. In der Kombinati- 
on der 15 am besten unterscheidenden Umgebungsvariablen aus Tabelle 5.2 
mit den Zellattributen zum Zeitpunkt 5 bzw. 15 min nach der ersten Detekti- 


on nimmt die jeweilige Zellfläche Az in beiden Verfahren eine überragende 
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Abbildung 6.24: Wie Abbildung 6.16, nur mit der maximalen Zellfläche Az max (km?) als 
Prädiktand. 


Rolle ein — wie nach den obigen Untersuchungen und den Ergebnissen aus 
Kapitel 6.4.1 erwartet. Interessanterweise sind für den Polynomansatz auch 
zwei thermodynamische Variablen (DCI; oonpa und Ops,850hPa) Von Bedeutung. 
Die quantitative Vorhersage der maximalen Zellfläche mittels des Parabelan- 
satzes und dem Strömungsfeldansatz aus Kapitel 5.1.2, in der gleichen Weise 
durchgeführt wie zur Untersuchung der Lebensdauer in Kapitel 6.3.2, lie- 
fert weniger gute Ergebnisse (Abbildungen D.15 und D.16). Da die Gründe 
hierfür dieselben wie für die Vorhersage der Lebensdauer sind, werden diese 


Studien hier nicht weiter diskutiert. 
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Einordnung der Vorhersagen aus den Modellstudien 


Unter einer geringen Einbuße von Vorhersageschärfe können unter Verwen- 
dung eines schwächeren Resamplings mit Qysp = 0,85 in K15* die Werte des 
BRMSE verringert werden (Abbildung D.14). Damit bleibt der Trainingsda- 
tensatz in einem gewissen Maße unbalanciert. Erfolgt gar kein Resampling, so 
reduziert sich das Overforecasting der kleineren Zellobjekte, dafür stellt sich 
ein leichtes Underforecasting der größeren Zellobjekte ein (Abbildung D.17). 
Hier sagt das Ensemble des Polynomansatzes jedoch so gut wie keine Zell- 
flächen von mehr als 65 km? mehr vorher. Das Ensemble des Random Forests 
weist zwar leicht höhere Werte des BRMSE auf als im Fall mit Resampling, 
die Verlässlichkeit der Vorhersagen ist ohne Resampling jedoch am höchs- 
ten (Abbildung D.17d). 

Abschließend stellt sich die Frage, wie diese Vorhersagen im Vergleich 
zu einer vereinfachten Vorhersage einzuordnen sind. Die Korrelation der 
Zellflache zu einem bestimmten Zeitpunkt zu Beginn des Lebenszy- 
klus (z.B. in der ersten halben Stunde) und der maximalen Zellfläche liegt 
bei rp € [0,68 ; 0,74]. Darüber hinaus erzielt bereits die Vorhersage, dass die 
maximale Zellfläche der Fläche zum Zeitpunkt der vierten Detektion ent- 
spricht, gute Ergebnisse (Abbildungen 6.25b+d). Viele Zellobjekte wachsen 
anschließend nur noch geringfügig (vgl. Kapitel 5.1.2). Es kommt dadurch 
insgesamt zu einem leichten Underforecasting. Ein linearer Polynomansatz 
ohne Resampling, Prädiktortransformation und Dämpfung (Regularisierungs- 
parameter & = 0; einfache lineare Regression, vgl. Kapitel 3.3.3) mit nur der 
Zellfläche Az zu einem bestimmten Zeitpunkt als Prädiktor führt somit eben- 
falls bereits zu einer sehr guten Abschätzung (Abbildungen 6.25a+c), die in 
etwa der des Random Forests ohne Resampling entspricht. Die Hinzunahme 
weiterer Prädiktoren zu diesem einfachen Ansatz bringt daher lediglich einen 


sehr geringen Gewinn. 
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(d) Calibration-Refinement F. Az(t = 17min) 
und Az „max 


Abbildung 6.25: (a)+(c) Wie Abbildungen D.17a+c, nur mit einem linearen Ansatz, ohne 
Prädiktortransformation und ohne Dämpfung (œ = 0). (b)+(d) Einfache Gegenüberstellung der 
beobachteten Zellfläche zum Zeitpunkt 15 min nach der ersten Detektion und der maximalen 
Zellfläche, in (b) der Likelihood-Base Rate Factorization und (d) der Calibration-Refinement 


Factorization. 
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7 Zusammenfassung, Diskussion und 
Ausblick 


Die vorliegende Arbeit stellte eine umfangreiche Analyse der Lebenszyklen 
konvektiver Zellen in Deutschland und ihren Zusammenhang zu den 
vorherrschenden Umgebungsbedingungen in der Atmosphäre vor. Basierend 
auf einem kombinierten, einzigartigen Datensatz aus Zellattributen und einer 
Vielzahl von konvektionsrelevanten meteorologischen Variablen wurden 
darüber hinaus verschiedene statistische Vorhersagemodelle zur Abschätzung 
der Lebensdauer und der Größe konvektiver Zellen entwickelt und mit dem 
Ziel untersucht, herauszufinden, welche von ihnen für eine Verbesserung 
von Nowcasting-Verfahren im automatischen Warnprozess des Deutschen 
Wetterdienstes (DWD) geeignet sind. 


Auf der Basis von Radardaten konnte der operationelle Zellverfolgungsal- 
gorithmus KONRAD des DWD Daten von konvektiven Zellen im Bundes- 
gebiet und benachbarten Regionen generieren, welche die Grundlage für 
die Untersuchung von Lebenszyklen, also der zeitlichen Entwicklung ver- 
schiedener Zellattribute, bildeten. Diese Daten lagen für die Sommerhalb- 
jahre 2011 — 2016 (April bis September) vor und wurden mit Hilfe einer 
meteorologisch fundierten Qualitätskontrolle und einer entsprechenden Fil- 
terung zu einem Datensatz von zusammenhängenden Lebenszyklen konvek- 
tiver Zellen (Zellobjekte) verarbeitet. Gleichzeitig standen zeitlich und räum- 
lich hochaufgelöste Assimilationsanalysen des numerischen Wettervorhersa- 
gemodells COSMO-EU (DWD) zur Verfügung, welche die Berechnung vie- 


ler konvektionsrelevanter meteorologischer Variablen zur Charakterisierung 
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der atmosphärischen Umgebungsbedingungen ermöglichten. Hierzu wurden 
entsprechende Routinen des COSMO-Modells zur Ausgabe und Nachberei- 
tung von Daten erweitert und die neuen Variablen mit dem Modell nachsi- 
muliert. Die Implementierung der neu hinzugefügten Umgebungsvariablen 
wurde mit Hilfe von Radiosondendaten evaluiert. 

Anschließend wurde der Datensatz der Lebenszyklen mit den Umgebungs- 
variablen kombiniert. Die Umsetzung erfolgte durch die Einführung eines 
adaptiven Umgebungsradius für die Zellobjekte, innerhalb dessen verschie- 
dene statistische Eigenschaften der Umgebungsvariablen zum Zeitpunkt der 
Detektion der Zellen abgeschätzt wurden. Dadurch konnte ein einzigartiger, 
kombinierter objektbezogener Datensatz generiert werden. Die knapp 40 000 
Lebenszyklen enthalten in fünfminütlicher Auflösung unter anderem Infor- 
mationen über die zeitliche Entwicklung der Position, der Verlagerung und 
der Größe der Zellen sowie der Größe des Zellkerns, der den Bereich des 
intensivsten Niederschlags einer Zelle darstellt. Diese Informationen wurden 
hier direkt mit den Werten von mehr als 50 Umgebungsvariablen in Verbin- 
dung gebracht, wie beispielsweise mit Maßen für den Feuchtegehalt der At- 
mosphire, die vertikale Windscherung und die thermische Stabilität. 

Der kombinierte Datensatz stellte die Grundlagen für alle folgenden Analysen 
und Entwicklungen dar. Um die Charakteristika der Lebenszyklen besser zu 
verstehen und die Analysen tiefgreifend interpretieren zu können, wurden 
die Lebenszyklen zunächst unabhängig von den Umgebungsbedingungen 
untersucht. Die transiente und stochastische Natur konvektiver Zellen 
sowie die mathematisch-technischen Limitierungen des Zellverfolgungs- 
algorithmus KONRAD erforderten unter anderem das Aussortieren von 
einigen Zellobjekten, die auf der Basis der vorliegenden Daten keinen 
kompletten, repräsentativen Lebenszyklus darstellen konnten. Insbesondere 
Multizellen und Mesoskalige Konvektive Systeme werden durch KONRAD 
nicht als ein zusammenhängendes System erfasst. Die erstellten Lebens- 
zyklen repräsentieren somit nur einen Teil des konvektiven Spektrums, 


nämlich isolierte Einzelzellen und Superzellen. Nichtsdestoweniger war 
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diese Auswahl im Hinblick auf die oben beschriebene Zielsetzung der 
vorliegenden Arbeit sehr gut geeignet, insbesondere, da fiir das Nowcasting 
eine Abschätzung der weiteren Entwicklung konvektiver Zellen unabhängig 


von ihrer Organisationsform von Interesse war. 


Die Zellen zeigten eine typische, von den großräumigen Bedingungen be- 
stimmte Verteilung ihrer Zugrichtung. Der Anteil der etwa von Südwest nach 
Nordost ziehenden Zellen war am größten. Bei der Untersuchung der KON- 
RAD-Daten wurde auch deutlich, dass die meisten Zellen eine recht kurze 
Lebensdauer haben und dementsprechend eine kurze Zugbahn und kleine flä- 
chenhafte Ausdehnung aufweisen. MacKeen et al. (1999) illustrierten bereits, 
dass diese Tatsache eine Prognose der verbleibenden Lebensdauer konvekti- 
ver Zellen im Sinne des Nowcastings als sehr schwierig gestaltet, da des- 
wegen die statistischen (linearen) Korrelationen zwischen den Eigenschaften 
detektierter Zellen und der Lebensdauer sehr gering sind. Einzelzellen, die 
meist eine Lebensdauer von insgesamt 30 — 60 min haben, können nach den 
Folgerungen jener Autoren nicht von Zellen mit einer längeren Lebensdauer 
unterschieden werden, wie z. B. von Superzellen. Besonders Zellen mit einer 
langen Lebensdauer und/oder einer großen Ausdehnung weisen jedoch das 
größte Schadenpotential auf. 

Die Untersuchungen in der vorliegenden Arbeit zum mittleren zeit- 
lichen Verlauf der Fläche konvektiver Zellen ordnen sich gut in 
das konzeptionelle Lebenszyklusmodell von Byers und Braham (1948) 
bzw. Doswell (1985) ein und bestätigen die Ergebnisse vergangener Studi- 
en (z.B. Weusthoff und Hauf, 2008; Wapler, 2021): Der Verlauf der Zell fla- 
che kann gut durch eine nach unten geöffnete Parabelschar approximiert wer- 
den, die das anfängliche Wachstum der Zellen bis zu einer maximalen Fläche 
und die anschließende Dissipation widerspiegelt. Gleichzeitig weichen die 
einzelnen Lebenszyklen teils sehr deutlich von diesen mittleren Verläufen ab, 
was als Ausdruck der großen Variabilität interpretiert werden kann und dem- 


entsprechend eine schlechte Vorhersagbarkeit impliziert. Weitere Analysen 
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konnten zeigen, dass eine hohe Verlagerungsgeschwindigkeit der Zellen auf 
eine längere Lebensdauer hindeutet. Außerdem verfestigten diese Untersu- 
chungen die Hinweise von Davini et al. (2012), dass gerade eine anfängliche, 
schnelle Vergrößerung der Zellfläche mit einer längeren Lebensdauer einher- 
geht. 

Anhand der hier verwendeten Datensätze wurde der Einfluss der thermischen 
Stabilität der Atmosphäre auf eine solche schnelle Vergrößerung der Zellflä- 
che gezeigt. Weitere Untersuchungen zum Potential der verschiedenen Um- 
gebungsvariablen, zwischen Zellen mit eher kleinerer und größerer Zellfläche 
zu unterscheiden, unterstreichen die Bedeutung thermodynamischer Varia- 
blen für das Wachstum einer Zelle. Auch die vertikale Windscherung als ein 
wesentliches Element für die Zellorganisation spielt hierbei eine Rolle, wie 
sich auch in den Vergleichen der maximalen Zellfläche mit den kombinier- 
ten dynamisch-thermodynamischen Indizes SCP und SHIP zeigte. Besonders 
diese beiden Indizes, verschiedene Maße der vertikalen Windscherung und 
die Stärke der mittleren Grundströmung, mit der die oben erwähnte Verlage- 
rungsgeschwindigkeit der Zellen assoziiert werden kann, unterscheiden sich 
für Zellen mit kurzer und langer Lebensdauer am deutlichsten. Quantitativ 
machen bivariate Analysen der mittleren Lebensdauer in Abhängigkeit von 
der thermischen Stabilität und der Windscherung allerdings deutlich, dass die 
Schärfe dieses kombinierten Unterscheidungsvermögens begrenzt ist. Bei ho- 
her Instabilität und hoher Windscherung ist die Lebensdauer im Mittel nur 
etwa 10 — 15 min höher als bei weniger labilen und windschwachen Verhält- 
nissen. 

Motiviert durch die Ergebnisse dieser Analysen wurden multivariate 
Verfahren der Statistik und des maschinellen Lernens verwendet, um 
herauszufinden, ob durch eine Kombination der Informationen über die 
verschiedenen Zellattribute und die Umgebungsvariablen (Prädiktoren) 
besser zwischen Zellen mit kurzer und langer Lebensdauer oder kleinen 
und großen Zellflächen unterschieden werden kann. Um die große Anzahl 


der nachprozessierten Umgebungsvariablen zu reduzieren, wurden eine 
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Korrelations- und eine Clusteranalyse durchgeführt. Dadurch wurden zum 
einen lineare und rangbezogene Korrelationen zwischen je zwei Umge- 
bungsvariablen bestimmt. Zum anderen konnten verschiedene Cluster von 
Umgebungsvariablen identifiziert werden, die eine Einteilung der Variablen 
in Gruppen ähnlicher Eigenschaften bezüglich einer Korrelationsoptimierung 
vornahmen. So konnten die bivariaten Korrelationen auf ein multivariates 


Bild erweitert werden. 


Zusammen mit den uni- und bivariaten Analysen zum Unterscheidungsver- 
mögen bildete die Clusteranalyse die Grundlage für die Auswahl der Um- 
gebungsvariablen für die multivariaten Verfahren zur Abschätzung der Le- 
bensdauer und der Zellfläche. Um eine differenzierte und robuste Einschät- 
zung der Vorhersagbarkeit und der Bedeutung unterschiedlicher Prädiktoren 
für die Vorhersage zu erhalten, wurden im Rahmen der vorliegenden Ar- 
beit das binäre Klassifikationsverfahren der multivariaten logistischen Re- 
gression, ein nicht-linearer Polynomansatz als Regressionsverfahren sowie 
der Random Forest nach Breiman (2001) angewendet. Für verschiedene Fra- 
gestellungen, die sowohl aus erkenntnistheoretischer Perspektive als auch für 
eine potentielle Anwendung der Ergebnisse zur Verbesserung von Nowcas- 
ting-Verfahren interessant sind, können verschiedene Verfahren unterschied- 
lich relevant sein. Während eine binäre Klassifikation beispielsweise darüber 
Aufschluss gibt, ob eine konvektive Zelle in Abhängigkeit von bestimmten 
Prädiktoren (ausgewählte Zellattribute und Umgebungsvariablen) eine eher 
kurze oder lange Lebensdauer zu erwarten hat (mit einem entsprechenden 
Trennwert zwischen kurz und lang), verknüpft eine Regression die Prädikto- 
ren mit einem kontinuierlichen Wert für die Lebensdauer. Der Random Forest 
ist so konzipiert, dass er sowohl eine binäre oder multikategorielle Klassifi- 
kation als auch eine Regression ermöglicht. Dadurch ist er für eine Reihe von 
Untersuchungen geeignet und konnte hier in beiden Modi angewendet und 
mit der binären logistischen Regression bzw. dem nicht-linearen Polynoman- 


satz verglichen werden. 
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Um einen Schritt weiter als eine reine multivariate Analyse der Zu- 
sammenhänge zwischen den Prädiktoren und der Lebensdauer bzw. der 
maximalen Zellfläche zu gehen, wurde ein Verfahren entwickelt, welches 
die Generierung eines ganzen Ensembles bestehend aus vielen Modellen 
der logistischen Regression, des Random Forests oder des Polynom- 
ansatzes auf der Basis des kombinierten Datensatzes der knapp 40000 
Lebenszyklen und Umgebungsvariablen ermöglichte. Dazu wurde dieser 
jeweils in unterschiedliche Trainings- und Testdatensätze aufgespalten. 
Nach einer geeigneten Vorbereitung der Daten konnte damit nicht nur 
jeweils ein Modellensemble aufgestellt, sondern dieses im gleichen Zug 
mit unabhängigen Daten auf sein Vorhersagevermögen untersucht und 
evaluiert werden. Damit ließ sich beurteilen, wie gut ein solches Ensemble 
zur Abschätzung der Lebensdauer oder der maximalen Fläche konvektiver 
Zellen während ihres Lebenszyklus geeignet ist. Zudem spiegelten die 
Ergebnisse daher die zu erwartende Vorhersagegüte wider, die ein solches 
Verfahren in einer Nowcasting-Anwendung erreichen würde. Dieser Schritt 
ist für eine Studie besonders, die den Lebenszyklus konvektiver Zellen 
oder den Einfluss von Umgebungsbedingungen auf die Eigenschaften 
konvektiver Zellen analysiert. Ein solcher Ensembleansatz ermöglicht 
darüber hinaus probabilistische Vorhersagen, die eine Quantifizierung 
der Vorhersageunsicherheit inkludieren. Zudem erlauben die logistische 
Regression, der Random Forest und der Polynomansatz die Quantifizierung 
der Wichtigkeit der einzelnen Prädiktoren, deren Variabilität durch den 


Ensembleansatz ebenfalls erfasst werden konnte. 


Ein Vergleich der binären Klassifikation zwischen dem Random Forest und 
der logistischen Regression zeigte, dass beide Verfahren ähnlich gute Vorher- 
sagen treffen, die logistische Regression im deterministischen Sinn leicht bes- 
sere Werte für die Gütemaße erhält. Da die logistische Regression auf einer 
globalen Optimierung der Modellparameter beruht, während der Random Fo- 


rest aufgrund seines lokalen Optimierungsansatzes den Raum der Prädiktoren 
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in feinere Unterräume unterteilen kann, erreicht letzterer daher bessere Werte 
für probabilistische Gütemaße. Mit beiden Verfahren wurden deutlich bessere 
Vorhersagen erzielt als bei einer zufälligen oder einer Persistenzvorhersage. 
Dies gilt sowohl für die Abschätzung der Lebensdauerklasse (kurz/lang mit 
Trennwert 60 min) als auch der Klasse der maximalen Zellfläche (klein/groß 
mit Trennwert 60 km?). Die maximale Zellfläche ließ sich dabei besser ab- 
schätzen als die Lebensdauer der Zellen. Die Gütemaße sind jedoch inhä- 
rent abhängig von der Wahl des Trennwerts zwischen den Klassen sowie 
dem genauen Vorgehen bei der Evaluation und müssen daher mit Sorgfalt 
interpretiert werden (vgl. Kapitel 6). Besonders gut ist die Klassifikation der 
Lebensdauer bei solchen Modellensembles, in denen die Information über 
die Zellfläche und die Fläche des Zellkerns zu Beginn des Lebenszyklus als 
Prädiktor in die Modellbildung eingeht. Dies bestätigt das Indiz aus den oben 
geschilderten Lebenszyklusanalysen, dass ein schnelles anfängliches Wachs- 
tum einer Zelle zu einer längeren Lebensdauer führt. Als ähnlich wichtig 
für die Klassifikation der Lebensdauer wie diese beiden Zellattribute stell- 
ten sich sowohl für die logistische Regression als auch den Random Forest 
erwartungsgemäß solche Umgebungsvariablen heraus, welche die vertikale 
Windscherung oder die mittlere Strömung beschreiben. Für die Klassifikati- 
on der maximalen Zellfläche ist der Einfluss aller Umgebungsvariablen auf 
die Vorhersagegüte vernachlässigbar. Hier deutet die Evaluation darauf hin, 
dass bereits allein aus dem anfänglichen Wachstum abgeleitet werden kann, 
ob eine Zelle in ihrer weiteren Entwicklung eine große Fläche erreichen wird. 
Qualitativ ähnliche Rückschlüsse bezüglich der Wichtigkeit der einzelnen 
Prädiktoren lassen sich aus dem Vergleich der Ensemblevorhersagen für 
die Regressionsverfahren ziehen. Ebenso lässt sich mit diesen Verfahren 
die maximale Zellfläche insgesamt besser abschätzen als die Lebensdau- 
er der Zellen. Der Random Forest weist für beide Prädiktanden insgesamt 
leicht bessere Vorhersagen hinsichtlich der Auflösung, Verlässlichkeit und 


des Vorhersage-Bias auf als ein linearer oder nicht-linearer Polynomansatz 
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fünfter Ordnung. Die Abschätzung der Lebensdauer zeigt allerdings mit ei- 
nem sogenannten einfachen Strömungsfeldansatz (vgl. Kapitel 5.1.2), der kei- 
ne Umgebungsvariablen berücksichtigt, einen geringeren Vorhersage-Bias als 
mit dem Polynomansatz oder dem Random Forest. Aufgrund seiner Konstruk- 
tion beträgt jedoch mit diesem Ansatz die höchste Lebensdauer-Vorhersage 
weniger als anderthalb Stunden, was deutlich unter der beobachteten Lebens- 
dauer der langlebigsten Zellen im Datensatz liegt. Mit dem Random Forest 
werden als höchste Lebensdauer-Vorhersage maximal etwas über zwei Stun- 
den und mit dem Polynomansatz mehr als drei Stunden erreicht. Für die bei- 
den letzten Verfahren kann der Wertebereich der Vorhersagen zudem über ein 
geeignetes Resampling gesteuert werden. Die Schärfe der Vorhersagen ließ 
sich im Vergleich zu den Unterschieden der mittleren Lebensdauer in den 
oben beschriebenen bivariaten Analysen durch die Anwendung der multiva- 
riaten Verfahren bzw. des Strömungsfeldansatzes in etwa verdoppeln, liegt 
mit etwa 20 — 25 min jedoch weiterhin recht niedrig. Die maximale Zellflä- 
che weist eine hohe Korrelation zu der Zellfläche zum Zeitpunkt 15 min nach 
der ersten Detektion auf. Das Ergebnis aus den Klassifikationsverfahren lässt 
sich somit darauf erweitern, dass alleine aus dem anfänglichen Wachstum gut 
abgeleitet werden kann, auf welche maximale Fläche eine Zelle anwächst. Es 
konnte jedoch auch gezeigt werden, dass die Berücksichtigung von Umge- 
bungsvariablen die ohnehin schon hohe Vorhersagegüte noch weiter erhöhen 
kann, insbesondere zu Beginn der Zellentwicklung. Im linearen Polynoman- 
satz zeigen dabei Maße der thermischen Instabilität bzw. der für Konvektion 
verfügbaren Energie einen bedeutenden Einfluss, was mit dem oben analy- 
sierten schnelleren Wachstum der Zellen bei höherer thermischer Instabilität 
übereinstimmt. 

Im Sinne einer quantitativen Vorhersage der Lebensdauer ist das Vor- 
hersagevermögen der Modellensembles rein basierend auf bestimmten 
Umgebungsvariablen insgesamt eher begrenzt. Die Ergebnisse der Studie 
von MackKeen et al. (1999), die zeigen, dass die Zusammenhänge zwischen 


der Lebensdauer konvektiver Zellen und deren Zelleigenschaften zu gering 
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sind, um eine Unterscheidung zwischen kurz- und langlebigen Zellen 
zu treffen, werden durch die vorliegende Arbeit auf einen aktuelleren 
und differenzierteren Stand gebracht. Beispielsweise kann rein auf der 
Basis von Umgebungsvariablen mit einer Wahrscheinlichkeit von über 
60% korrekt abgeschätzt werden, ob eine Zelle mindestens 60 min lebt 
oder nicht. Rund 15 min nach der ersten Detektion einer Zelle kann unter 
Hinzunahme der Information über die Entwicklung der Zellfläche sogar mit 
einer Wahrscheinlichkeit von über 70 % korrekt abgeschätzt werden, ob diese 
Zelle noch mindestens weitere 45 min lebt oder nicht. Nimmt man in Kauf, 
dass Zellen mit einer kurzen Lebensdauer zu 50% fälschlicherweise als 
langlebige Zellen vorhersagt werden, ist es möglich, 80 bis 90 % aller Zellen 
mit einer langen Lebensdauer bereits nach 15 min zu identifizieren. Mit 
dem Wissen, dass insgesamt viel mehr Zellen mit einer kurzen als mit einer 
langen Lebensdauer auftreten, bedeuten diese Ergebnisse jedoch weiterhin 


ein relativ großes Verhältnis von Fehlalarmen zu korrekten Zuordnungen. 


Die ausführliche Evaluation der verschiedenen Modellensembles hatte zum 
Ziel, neben dem wissenschaftlichen Erkenntnisgewinn einen differenzierten 
Blick auf die Potentiale und Grenzen zu ermöglichen, welche für die 
Verbesserung von Nowcasting-Verfahren im Sinne einer Verbesserung der 
Abschätzung der Lebensdauer und der maximalen Fläche konvektiver Zellen 
bestehen. Diese Abschätzungen können zum einen insbesondere für die 
Verbesserung der internen Lebenszyklusmodelle von Zellverfolgungsalgo- 
rithmen von Interesse sein, sind aber auch direkt für die genauere zeitliche 
und räumliche Spezifizierung von Gewitterwarnungen von großer Relevanz. 
Die vorliegende Arbeit verdeutlicht damit einige mögliche Vorteile eines 
integrierten Vorhersagesystems für den Bereich der Kürzestfristvorhersage, 
in dem nahtlose Vorhersagen der konvektiven Aktivität auf der Basis 
einer Kombination aus räumlich und zeitlich hochaufgelösten Vorhersagen 
von numerischen Wettervorhersagemodellen und Nowcasting-Verfahren 


möglich sind. In diesem Zusammenhang liefert die vorliegende Arbeit 
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einen wichtigen Beitrag im Rahmen der Optimierung von automatisierten 
Warnprozessen, wie sie durch viele Wetterdienste operationell betrieben 
werden. Entscheidungsträger, Unternehmen und Privatpersonen profitieren 
gleichermaßen von möglichst präzisen Warnungen vor den gefährlichen 


Begleiterscheinungen konvektiver Zellen. 


Die gezeigten Analysen und Modellstudien stellen nur einen Teil der im Rah- 
men dieser Arbeit durchgeführten Untersuchungen dar. Beispielsweise wur- 
den auch Modellensembles auf der Basis des Random Forests untersucht, wel- 
che eine Klassifikation der Lebensdauer in mehr als nur zwei Klassen vorneh- 
men. Die Evaluation solcher Realisierungen mit drei, vier und fünf Klassen 
deutet auf ein Vorhersagepotential hin, welches für spezifische Anwendun- 
gen von Interesse sein könnte. Darüber hinaus kann die Vorhersagegüte der 
verwendeten Verfahren noch gesteigert werden, indem für jedes dieser Ver- 
fahren eine systematische Auswahl der Prädiktoren durch bekannte Vorge- 
hensweisen wie die schrittweise Regression durchgeführt wird. Ein weiteres 
Potential zur Erhöhung der Vorhersagegüte könnte in der Berücksichtigung 
der räumlichen Verteilung der Umgebungsvariablen in Bezug auf die Position 
der konvektiven Zellen liegen, welche unter anderem Sherburn et al. (2016) 
und Kunz et al. (2020) analysierten. Hierzu wäre die Anwendung von ande- 
ren Verfahren aus dem Bereich der Statistik oder des maschinellen Lernens 
erforderlich, wie beispielsweise von konvolutionalen neuronalen Netzen. 

Weiterentwickelte Verfahren der Zellverfolgung wie z.B. KON- 
RAD3D (DWD) werden ferner in der Lage sein, die Lebenszyklen 
konvektiver Zellen realistischer und mit einer größeren Vielfalt von 
weiteren Zellattributen zu beschreiben. Neben der Information über die 
Vertikalstruktur und den Flüssigwassergehalt der Zellen können auch die mit 
den modernen Dual-Pol Doppler-Radargeräten gewonnenen Informationen 
zur Hydrometeorklassifikation genutzt werden. Dies eröffnet einen großen 
Raum weiterer Möglichkeiten für die statistische Lebenszyklusanalyse und 


-vorhersage, sobald Daten über einen genügend großen Stichprobenzeitraum 
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zur Verfügung stehen. Darüber hinaus stellen Verfahren zur Abschätzung 
verschiedener Zellattribute für das Nowcasting konvektiver Zellen auf der 
Basis von simulierten Zellen aus den NWV-Vorhersagen einen weiteren 
interessanten Ansatz dar (vgl. Feige et al., 2018; DWD, 2021c). Im Sinne 
des Multi-Daten-Ansatzes erscheinen außerdem kombinierte Analysen und 
Verfahren als vielversprechend, die auf der Basis von Satelliten-, Radar-, 
und Blitzdaten und/oder Daten aus Nowcasting-Verfahren und numerischen 
Wettervorhersagemodellen ein multidimensionales Bild der messbaren 
Eigenschaften von konvektiven Zellen zeichnen (z.B. Nisi et al., 2014; 
Zöbisch et al., 2020). 
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A Kurzbeschreibung relevanter 
konvektiver Indizes 


Folgende Kurzbeschreibungen einiger relevanter konvektiver Indizes sind an 
Kunz (2007), Mohr (2013) sowie an eine Zusammenstellung der National 
Oceanic and Atmospheric Administration (NOAA)! angelehnt. 


Deep Convective Index (DCH 


Der DCI kombiniert Informationen über die Temperatur und Feuchte im 
850hPa Druckniveau mit der latenten Instabilität, ausgedrückt durch den 
LI (vgl. Kapitel 2.1.2 und 2.3; Barlow, 1993): 


DCI = Tgsonpa + Tgsonpa — LI . (A.1) 


Werte von DCI > 30 sind Hinweise auf das Potential fiir das Auftreten 


schwerer Gewitter. 


Vertical Totals (VT) 


Der VT ist ein reines Stabilitätsmaß und beschreibt die (bedingte) Instabi- 
lität in der mittleren Troposphäre durch die Differenz der Temperaturen im 
850 hPa und 500 hPa Druckniveau (Miller, 1975): 


VT = Tgsonpa — T500hPa - (A.2) 


‘https: //www.weather.gov/1mk/indices 
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Er ist eng mit der Lapse Rate LRgso—soonpa verknüpft, welche jedoch zusätz- 
lich die unterschiedliche geometrische Schichtdicke bei unterschiedlichen 
Temperaturen berücksichtigt. Miller und Mote (2018) zeigten beispielswei- 
se, dass der VT besonders in gradientschwachen Wetterlagen im Südosten 
der USA ein guter Indikator für das Auftreten schwerer Begleiterscheinungen 
konvektiver Zellen wie Sturmböen oder Hagel sein kann (Unterscheidungs- 
trennwert etwa VT=25K). 


Total Totals (TT) 


Als Erweiterung des VT berücksichtigt der TT zusätzlich die Feuchte in der 
unteren Troposphäre (Miller, 1975): 


TT = Tgsonpa — 27500hPa + T850hPa - (A.3) 


Auch der TT ist nach Miller und Mote (2018) ein guter Indikator für das Auf- 
treten schwerer Begleiterscheinungen konvektiver Zellen (Unterscheidungs- 
trennwert etwa TT = 47K). Huntrieser et al. (1997) zeigten, dass der TT 
zu den Indizes mit dem besten Unterscheidungsvermögen zwischen Tagen 
mit und ohne Gewitter in der Schweiz gehört (Unterscheidungstrennwert 
TT=45-46K). 


K-Index 


Der K-Index berücksichtigt im Vergleich zum TT das Maß an Feuch- 
te im 700hPa Druckniveau und berechnet sich nach George (1960) mit 


T* = Tgsonpa und T* = Tgsonp. über 
K-Index = T* — Tsoohpa + T* — (T700hPa — T700hPa) - (A.4) 


Charba (1977) schlug vor, für T* und t* jeweils das arithmetische Mittel der 
Werte aus dem 850 hPa und dem bodennahen Druckniveau zu verwenden. 


Trockenlufteinschübe im 700 hPa Druckniveau wie beispielsweise durch die 
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Advektion einer abgehobenen Mischungsschicht (vgl. Kapitel 2.1.2) können 
niedrige Werte für den K-Index hervorrufen und ermöglichen dennoch das 
Auftreten starker konvektiver Zellen, wenn ein genügend starker Hebungsme- 
chanismus vorhanden ist. In den Untersuchungen von Kunz (2007) gehört der 
K-Index nach Charba (1977) zu den Indizes, die am besten zwischen Tagen 
mit und ohne Gewitter in Deutschland unterscheiden (Unterscheidungstrenn- 
wert K-Index = 35 K). 


Vertikaldifferenz von 0ps (A0ps) 


A@,s stellt einen Index als Maß für bedingte bzw. potentielle Instabilität 
dar, der das Potential für starke Fallböen im Abwindbereich einer konvek- 
tiven Zelle charakterisiert, und wird daher auch Wer Mircoburst Index ge- 
nannt (Atkins und Wakimoto, 1991). In der Formulierung von Kunz (2007) 
ist 

AQys = Ha p — Ops,300hPa ; (A.5) 
der Index B steht für bodennah. Je höher die Werte von A@,,, sind, desto höher 
ist das Fallböenpotential, da die Stärke der Auf- und Abwinde zunimmt, wenn 
die untere Troposphäre eher warm und feuchtlabil, die obere Troposphäre 


hingegen eher kalt und trocken ist (vgl. Kapitel 2.1.2). 


Showalter Index (SI) 


Der SI stellt einen Spezialfall des LI dar (vgl. Kapitel 2.3; Showalter, 1953). 
Zur Berechnung wird ein Luftpaket angenommen, dessen Ausgangswerte 


durch das 850 hPa Druckniveau gegeben sind: 


SI = Tsoonpa — TP 500hPa - (A.6) 


Man beachte, dass in diesem Anhang im Unterschied zu Kapitel 2.1.2 Varia- 
blenwerte aus der Umgebung eines Luftpakets ohne den Index U beschrieben 
werden. Wie für den LI gilt, dass SI < 0 K ein Zeichen für latente Instabilität 
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für ein solches Luftpaket ist. Im Fall eines Trockenlufteinschubs im Bereich 
des 850hPa Druckniveaus kann der SI deutlich höhere Werte anzeigen als 


solche LI, die auf Luftpaketen aus niedrigeren feuchten Schichten basieren. 


KO-Index 


Der KO-Index beschreibt die bedingte bzw. potentielle Instabili- 
tät (Andersson et al., 1989). Er charakterisiert die mittlere vertikale 
Änderung der pseudopotentiellen Temperatur in der mittleren Troposphäre 
über 

KO-Index = 0,5(0,,,s00hPa + 9ps,700hPa — 20ps,850hPa) - (A.7) 


Wie für den LI steigt die Instabilität mit sinkenden Werten des KO-Index. 
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B Sensitivitäten fur die 
Modellstudie U2_ 0 


In den folgenden Abschnitten sind Modellstudien zur Untersuchung der Sen- 
sitivität der Vorhersageverfahren bezüglich verschiedener Setup-Parameter 
am Beispiel der Modellstudie U2_0 erläutert. 


Bootstrapping — Größe des Trainingsdatensatzes 


Für uLocr = 0,029 bzw. urr = 0,002 und einen festen Testdatensatz erfolgt 
eine Modellstudie zur Sensitivität bezüglich des Bootstrappings. Dazu wird 
jeweils die Größe des Trainingsdatensatzes variiert (Abbildung B.1). Für die 
logistische Regression ist die Vorhersage nur bis etwa Nr, = 20000 sensi- 
tiv in Bezug auf die Anzahl der Trainingsdaten, während der Random Fo- 
rest die besten Werte für die kategorischen Gütemaße im Bereich zwischen 
ca. Nr, = 10000 und Nr, = 30000 hat. Dies könnte darauf zurückzufüh- 
ren sein, dass jedes Zellobjekt des Trainingsdatensatzes eine unterschiedli- 
che Gruppe von Entscheidungsbäumen des Random Forests durchläuft. Eine 
Größe des Trainingsdatensatzes Nr, = O(fr,N) scheint demnach eine geeig- 
nete Wahl zu sein. In den Untersuchungen in diesem Abschnitt sowie in den 
Kapiteln 6.3 und 6.4 mit einem Ensembleansatz findet daher — sofern nicht 
anders deklariert — kein Bootstrapping statt. Stattdessen dient der potentielle 
Trainingsdatensatz (alle Zellobjekte, die nicht im Testdatensatz sind) direkt 
als Trainingsdatensatz. Dieser ist im Fall der Ensemblestudien ohnehin ge- 


mäß der Konstruktion des Ensembles für jedes Mitglied verschieden (vgl. 
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Kapitel 3.6.1 und 6.1.1). Darüber hinaus wird so gewährleistet, dass der ma- 
ximale Gehalt an Information vorhanden ist: Im Fall des Bootstrappings zieht 
der entsprechende Algorithmus einige Zellobjekte mehrfach, andere aber gar 


nicht. Letztere sind dort also weder Teil der Trainings- noch der Testdaten. 
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Abbildung B.1: Verschiedene (Skill) Scores basierend auf 51 Modellen mit unterschiedlichen 
Größen des Trainingsdatensatzes im Intervall Nr, € [100; 50100] in äquidistanten Schritten 
für (a) die logistische Regression (ULogr = 0,029) und (b) den Random Forest (urr = 0,002). 


Anteil der Trainings- und Testdaten 


Für uLocr = 0,029 bzw. Urr = 0,002 erfolgt eine Modellstudie zur Sensi- 
tivität bezüglich des Trainingsdatensatzes. Dazu wird jeweils der Anteil der 
Trainings- und Testdaten am gesamten Datensatz variiert (Abbildung B.2). 
Für beide Vorhersagemethoden scheinen Werte für fr, € [0,5; 0,8] am bes- 
ten geeignet zu sein — dort weisen alle Gütemaße recht stabile Werte auf. 
Auffällig ist, dass der Random Forest zur Stabilisierung der Gütemaße einen 
deutlich größeren Trainingsdatenanteil benötigt als die logistische Regressi- 
on. Ein Grund dafür ist möglicherweise die geringe Anzahl von Zellobjekten 
mit langer Lebensdauer, weswegen der Random Forest für niedrige Werte von 
frr fast ausschließlich K-Vorhersagen trifft. Zur Vereinheitlichung erfolgt die 
Festlegung frr = 0,66 für alle gezeigten Modelle. 
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Abbildung B.2: Verschiedene (Skill) Scores basierend auf 51 Modellen mit jeweils un- 
terschiedlichem Anteil der Trainings- und Testdaten am gesamten Datensatz im Intervall 
frr € [0,01; 0,99] in äquidistanten Schritten für (a) die logistische Regression (UzoGr = 0,029) 
und (b) den Random Forest (urr = 0,002). 


Wahl des Klassentrennwerts 


Beide Vorhersagemethoden werden im Anschluss in einer Modellstudie zur 
Sensitivität bezüglich des Klassentrennwerts der Lebensdauer mit verschiede- 
nen Werten für 7 für jeweils ein exemplarisches Modell mit festem Trainings- 
und Testdatensatz ausgetestet (Tabelle B.1; Abbildung B.3). Die halbe Breite 
des Übergangsbereichs ist wie in der Modellstudie U2_0 durch d = 15 min 
gegeben. Die Intervalle für den Entscheidungstrennwert Urock sind für jeden 
Klassentrennwert unterschiedlich, um eine möglichst glatte ROC-Kurve zu 
erhalten. Im Fall des Random Forests ist wie in U2_0 urr € [0,001 ; 0,101] 
eine geeignete Wahl, da der Random Forest mit 1000 Bäumen Werte von 
Urr < 0,001 nicht abbilden kann (vgl. Kapitel 3.5.2). 

Die Vorhersagen der logistischen Regression erreichen umso höhere Wer- 
te für die AUC, je größer T ist. Allerdings zeigt sich für tT > 90 min keine 
weitere Verbesserung. Auch die Realisierungen des Random Forests deuten 


an, dass die Vorhersagen für größere T bessere Scores erwarten lassen. Der 
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Tabelle B.1: Anzahl von Zellobjekten im gesamten Datensatz mit langer Lebensdauer N, > T, 
entsprechende Klassenverhältnisse px sowie AUC für ein beispielhaftes Modell der logistischen 
Regression mit verschiedenen Klassentrennwerten T. 


Klassentrennwert"— 45min 60min 75min 90 min 105 min 
Maß | 


Nr 2280 1096 560 309 189 
pK 0,063 0,029 0,014 0,008 0,005 


AUC (LOGR) 0,632 0,659 0,724 0,787 0,775 


Unterschied zwischen den ROC-Kurven ist generell höher als die Variabili- 
tät, die sich durch die Wahl unterschiedlicher Trainings- und Testdaten er- 
gibt (vgl. Abbildung 6.2) und damit signifikant. Aufgrund des Übergangsbe- 
reichs mit einer halben Breite von 7’ = 15 min gehen allgemein für 7 = 60 min 
rund 200, für T = 75 min noch rund 100 und T = 90 min noch rund 60 Zell- 


objekte in die Evaluation der einzelnen Realisierungen ein. 


Wahl des Ubergangsbereichs für den Klassentrennwert 


Beide Vorhersagemethoden werden nun in einer Modellstudie zur Sensitivitat 
beziiglich des Ubergangsbereichs fiir den Klassentrennwert der Lebensdauer 
für fünf verschiedene Werte von 7’ mit dem Klassentrennwert T = 60 min 
ausgetestet (Abbildung B.4). Dazu wird jeweils ein Ensemble aus 51 Model- 
len mit festen Entscheidungstrennwerten Urogr = 0,029 bzw. Urr = 0,002 
aufgesetzt. Je größer der Ubergangsbereich ist, desto höher sind die Werte 
für die ACC und desto niedriger jene für den BS für Zellobjekte mit langer 
Lebensdauer. Dabei ändert sich die ACC nur wenig, während der BS eine 
deutliche Abnahme anzeigt. Dies lässt sich dadurch erklären, dass durch die 


Vergrößerung des symmetrischen Übergangsbereichs ein nicht unerheblicher 
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Abbildung B.3: ROC-Kurven basierend auf 51 Realisierungen mit unterschiedlichen Klassen- 
trennwerten für ein beispielhaftes Modell — für t = 60 min wie eines der Modelle in Abbil- 
dung 6.2a+b — (a) der logistischen Regression und (b) des Random Forests. 


Anteil von Zellobjekten mit langer Lebensdauer nicht in die Evaluierung ein- 
geht. Gerade Zellobjekte mit einer langen Lebensdauer nahe am Klassen- 
trennwert T sind deutlich stärker vertreten als solche mit sehr langer Lebens- 
dauer (vgl. Kapitel 6.1.2). 

Hier wird deutlich, dass die Wahl des Übergangsbereichs einen entscheiden- 
den Einfluss auf die Gütemaße hat. Die Wahl t = 60 min mit t’ = 15 min 
für U2_0 sowie die Modellstudien in Kapitel 6.3.1 stellt aus statistischer 
Sicht einen guten Kompromiss dar, der sowohl eine klare Separation der 
beiden Klassen als auch eine adäquate Anzahl von Zellobjekten mit langer 
Lebensdauer im Testdatensatz, die in die Evaluation einer einzelnen Rea- 
lisierung oder eines einzelnen Ensemblemitglieds eingehen (nämlich rund 
200, s.o.), erreicht. Aus meteorologischer Sicht erscheint diese Kombinati- 
on ebenfalls als sinnvoll, spiegelt doch die Evaluation von Zellobjekten mit 
einer Lebensdauer von weniger als 45 min eher die Auswertung von nur we- 


nig organisierten Einzelzellen, und die Evaluation von Objekten mit einer 
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Abbildung B.4: Analog zu Abbildung 6.6, nur für die Untersuchung der Sensitivität bezüglich 
der halben Breite des Ubergangsbereichs 7’ des Klassentrennwerts T. Je dicker die Symbole sind, 
desto größer ist der Übergangsbereich für 7 = 60 min (t’ = 0, 5, 10, 15, 20 min). 


Lebensdauer von mehr als 75 min eher diejenige von organisierter Konvekti- 
on wider (vgl. Kapitel 2.2). Die Auswertungen der in Kapitel 6.3.1 gezeigten 
Modellstudien müssen daher mit dem Wissen um die jeweiligen Sensitivitä- 


ten interpretiert werden. 


Wahl der Größe des Ensembles 


Auch die Wahl der Ensemblegröße zeigt einen, obgleich auch geringen 
Einfluss auf die Evaluation. Weniger als 51 Ensemblemitglieder sind für 
frr = 0,66 ohnehin nicht zweckmäßig, da sonst viele Zellobjekte nur in weni- 
gen Testdatensätzen vorkommen und eine probabilistische Auswertung nicht 
sinnvoll ist. Vergrößert man das Ensemble aus U2_0 um 20 oder 40 Mitglie- 
der, so unterscheiden sich beispielsweise der BS für die Zellobjekte mit langer 
Lebensdauer, die ACC sowie die mittlere Schwankungsbreite des Ensembles 
re jeweils um weniger als 2 % von den Werten, die man mit 51 Ensemble- 


mitgliedern erhält (nicht gezeigt). Ebenso gibt es kaum einen Unterschied in 
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den Verteilungen der Vorhersagen aus Abbildung 6.5. Dieses Ergebnis lässt 
sich auch für die Modellstudien aus den Kapiteln 6.3 und 6.4 feststellen, so- 


dass in allen Modellstudien 51 Ensemblemitglieder verwendet werden. 


Wahl des Verfahrens für die Transformation der Werte der 
Prädiktoren 


Das Verfahren zur Transformation der Werte der Prädiktoren (vgl. Kapi- 
tel 3.5.1 und 6.1.1) stellt sich in U2_0 als nicht entscheidend her- 
aus. Sowohl DLS als auch Lomp: weichen beide nicht allzu stark von 
der Normalverteilung ab. So unterscheiden sich die ROC-Kurven, die 
man in U2_0 nach Durchführung der Kombination einer z- und einer 
Yeo-Johnson-Transformation erhält, kaum von denen, die man nach einer al- 
leinigen z-Transformation bzw. gänzlich ohne Transformation erhält (für die 
logistische Regression beispielsweise ändert sich die AUC um weniger als 
0,5 %; nicht gezeigt). Da man die Effekt-Koeffizienten der logistischen Re- 
gression bzw. die Koeffizienten der linearen Regression (vgl. Kapitel 3.3.1) 
direkt in Bezug zur Wichtigkeit der Prädiktoren setzen kann, wenn eine 
z-Transformation der Werte der Prädiktoren erfolgt, soll dies für die weiteren 
Untersuchungen beibehalten werden. Ebenso ist die Anwendung der Yeo- 
Johnson-Transformation insbesondere für Prädiktoren sinnvoll, deren Vertei- 
lung stark von der Normalverteilung abweicht. Sie wird daher in allen Mo- 


dellstudien auf alle Prädiktoren angewendet. 


Resampling zur Balancierung des Trainingsdatensatzes 


Das Undersampling und das Oversampling können zur Balancierung des 
Trainingsdatensatzes beitragen, d.h. das Klassenverhältnis px im Vergleich 
zu U2_0 vergrößern. Dabei erhofft man sich eine Verbesserung der Güte der 


Vorhersagen für einen balancierten Datensatz (vgl. Kapitel 3.5.2 und 6.1.1). 
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Tabelle B.2: Anzahl von Zellobjekten N4, sowie von Zellobjekten mit langer Lebensdauer N; 7, 
im modifizierten Trainingsdatensatz, dortige Klassenverhältnisse D 7, sowie AUC für ein bei- 
spielhaftes Modell der logistischen Regression sowie des Random Forests mit verschiedenen 
Werten für den Balanceparameter dy sp bei der Anwendung eines Undersamplings. 


duer > 04 05 0,6 0,7 0,8 0,9 U2_0 
Maß | 

N: 136 322 514 1298 2623 6702 25000 
Ni Tr 98 202 297 566 675 675 675 
Dr, 2,58 1,68 1,37 0,77 0,35 0,10 0,03 


AUC (LOGR) 0,65 0,64 0,66 0,66 0,66 0,66 0,66 
AUC (RE) 0,59 0,55 0,57 0,56 0,57 0,56 — 


Undersampling 

Zunächst wird das Undersampling untersucht (Tabelle B.2, Abbil- 
dung B.5). Die Entscheidungstrennwerte Uzogr und upr variieren im Inter- 
vall [0,01 ; 0,99]. Durch die Wahl des Balanceparameters dr:er hat man direkt 
Einfluss auf die Gesamtanzahl von Zellobjekten im modifizierten Trainings- 
datensatz Ni, die dortige Anzahl von Zellobjekten mit langer Lebensdau- 
er N; r, sowie das dortige Klassenverhältnis px r,- Offensichtlich führen klei- 
ne Werte von @ysp zu sehr kleinen Trainingsdatensätzen, in denen mehr Zell- 
objekte mit langer als mit kurzer Lebensdauer zu finden sind. Eine adäquate 
Wahl für den Balanceparameter liegt in etwa im Intervall @ysp € [0,6; 0,7]: 
Hier ist der Trainingsdatensatz hinreichend groß und die Anteile von Zellob- 
jekten mit kurzer und langer Lebensdauer sind recht gut ausbalanciert. Die 
AUC-Werte weisen darauf hin, dass die Vorhersagegüte für die logistische 
Regression derjenigen aus U2_0 nicht nachsteht, jedoch auch nicht zugenom- 


men hat. 
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Abbildung B.5: ROC-Kurven basierend auf 51 Realisierungen mit unterschiedlichen Entschei- 
dungstrennwerten fiir ein beispielhaftes Modell (a) der logistischen Regression und (b) des Ran- 
dom Forests mit Undersampling des Trainingsdatensatzes (fiir dr: sp = 1,0 wie eines der Modelle 
in Abbildung 6.2a+b). 


Dieses Resultat steht nicht im Widerspruch zum Ergebnis aus der Untersu- 
chung der Größe des Trainingsdatensatzes. Während dort eine Verkleinerung 
des Datensatzes mit einer Reduzierung von Zellobjekten gemäß der 
allgemeinen Verteilung der Werte des Prädiktanden einhergeht, entfernt das 
Undersampling hauptsächlich Zellobjekte mit kurzer Lebensdauer aus dem 
Trainingsdatensatz (für dysp = 0,7 beispielsweise knapp 97 % aller Objekte 
mit kurzer Lebensdauer aus U2_0), während die Anzahl von Zellobjekten 
mit langer Lebensdauer nur wenig sinkt (für @ysp = 0,7 nur um etwa 
16%). Offensichtlich geht trotz der starken Verkleinerung des originalen 
Trainingsdatensatzes nur wenig von dessen Informationsgehalt durch das 


Undersampling verloren. 
Oversampling 


In ähnlicher Weise geschieht die Untersuchung des Oversamplings. 


Hier führen hohe Werte von dosp zu größeren Trainingsdatensätzen 
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— beispielsweise finden sich dort für posp = 0,9 genau N}. = 35115 
Zellobjekte mit einem Klassenverhältnis px 7, = 35,4 % und N; 7, = 9 187 
Zellobjekte mit langer Lebensdauer — die meisten davon natiirlich fiktiv. 
Die Wahl der Oversampling-Methode ist für die Qualität der Vorhersage 
nicht maßgebend. Sowohl mit SMOTE als auch mit dem Gauss’schen 
Rauschen und dem zufälligen Oversampling mit beliebigem osp ähneln 
die ROC-Kurven derjenigen aus U2_0 stark (nicht gezeigt). Auch hier gibt 
es keine Verbesserung der Gütemaße. Es sei angemerkt, dass nur für dosp 
nahe 1 und einer dementsprechend hohen Anzahl von fiktiven Zellobjekten 
Petr Werte nahe 1 erreicht. Insgesamt ist das Oversampling alleine daher 


nicht von Nutzen. 


Kombination aus Undersampling und Oversampling 

Eine Kombination aus Undersampling und Oversampling ist am sinnigsten, 
wenn zunächst das Undersampling und anschließend das Oversampling er- 
folgt (vgl. Kapitel 3.5.2). Als erstes wird demnach die Anzahl von Zellob- 
jekten mit kurzer Lebensdauer verringert und im Anschluss die Anzahl von 
Zellobjekten mit langer Lebensdauer durch die Einführung von fiktiven Zell- 
objekten erhöht. Mit der hier angewendeten Vorgehensweise erhält man et- 
wa für beliebige @ysp > 0,7 ähnliche Klassenverhältnisse px r, — je nach 
Wahl der minimalen Anzahl von Zellobjekten einer beobachteten Lebensdau- 
er Nr min, die erreicht werden muss, sodass das Oversampling diese berück- 
sichtigt (vgl. Kapitel 3.5.2). 

Beispielhaft wird Nr min = 15 gewählt und guer im gleichen Intervall variiert 
wie bei den Untersuchungen zum Undersampling (Tabelle B.3). Damit liegt 
das Klassenverhältnis im Trainingsdatensatz beispielsweise für Ousp = 0,7 
bei ca. Px 7, © 127%. Für kleine Werte von ®usp geht das Verfahren in ein 
reines Undersampling über, für große du ep in ein reines Oversampling. Bei 
den Werten für die AUC des Random Forests fällt auf, dass die Werte gering- 
fügig höher als beim reinen Undersampling liegen (vgl. Tabelle B.2). Für den 


Random Forest liegt der maximale Unterschied bei 2,2, für die logistische 
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Tabelle B.3: Anzahl von Zellobjekten N4, sowie von Zellobjekten mit langer Lebensdauer N; 7, 
im Trainingsdatensatz, dortige Klassenverhältnisse px 7, sowie AUC für ein beispielhaftes Mo- 
dell der logistischen Regression sowie des Random Forests mit verschiedenen Werten für den Ba- 
lanceparameter dr: sp bei einer Kombination von Undersampling und Oversampling (Gauss’sches 
Rauschen) mit Nr min = 15. 


duer > 04 05 0,6 0,7 0,8 0,9 U2_0 
Maß | 

Ny, 136 323 523 1662 4503 16810 25000 
Ni T, 98 202 306 930 2478 9175 675 
Petr 2,58 1,67 141 127 1,22 1,20 0,03 


AUC (LOGR) 0,65 0,64 0,66 0,66 0,66 0,66 0,66 
AUC (RE) 0,59 0,55 057 057 059 0,57 Se 


Regression bei 0,3 Prozentpunkten. Man erhält diese höheren Werte, indem 
man als Oversampling-Methode das Gauss’sche Rauschen einsetzt. Auch die 
AUC-Werte unter Verwendung von SMOTE zeigen eine ähnliche Verbesse- 
rung, wohingegen zufälliges Oversampling keine Verbesserung liefert (nicht 
gezeigt). 

Für Klassifikationsverfahren empfiehlt sich daher die Anwendung eines Re- 
samplings bzw. eine Kombination aus Undersampling und Oversampling nur 
bedingt, da die Wahl des Entscheidungstrennwerts u ebenso die Balancierung 
der Vorhersagen steuern kann. Für den Random Forest ist ein Resampling 
dann nützlich, wenn es ermöglicht, die notwendige Anzahl an Bäumen Ngaum 
deutlich zu reduzieren und/oder der Random Forest gleich gute oder gar bes- 


sere Vorhersagen trifft (vgl. Kapitel 3.5.2). 
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Spezifische Tuningparameter für den Random Forest 


Der offensichtlichste frei wahlbare Parameter bei der Generierung eines Ran- 
dom Forests ist die Anzahl von Entscheidungsbäumen, die dem Random 
Forest zugrunde liegen (vgl. Kapitel 3.4.3). Ähnlich der relativen Häufig- 
keit des Ergebnisses eines Zufallsexperiments stabilisiert sich die Vorher- 
sage eines Random Forests mit steigender Anzahl von Entscheidungsbäu- 
men Npaum (vgl. Gesetz der großen Zahlen; z. B. Henze, 2010). Anschaulich 
gesprochen nähern sich die ROC-Kurven für Ngaum — œ einer asymptoti- 
schen Kurve an. 

Oshiro et al. (2012) postulierten auf der Basis eines experimentellen Setups 
mit 29 verschiedenen Datensätzen, dass eine Zahl zwischen 64 und 128 Ent- 
scheidungsbäumen bezüglich verschiedener Gütemaße allgemein empfeh- 
lenswert sei. Gerade bei einer sehr großen Anzahl von Prädiktoren könne es 
jedoch nützlich sein eine größere Zahl zu verwenden. Des Weiteren sind, wie 
in U2_0 gesehen, große Werte für Ngaum unabdingbar, wenn der Datensatz 
sehr unbalanciert ist. 

Bei der Variation von Ngaum Wird deutlich, dass für ein Setup mit zwei Prädik- 
toren ca. 75 Entscheidungsbäume bereits ausreichend sind, wenn eine Kombi- 
nation aus Undersampling und Oversampling für den Trainingsdatensatz An- 
wendung findet (Abbildung B.6). Der Unterschied zwischen der ROC-Kurve 
mit 75 und derjenigen mit 2000 Entscheidungsbäumen liegt hier lediglich 
bei 1,3%. 2000 Entscheidungsbäume gelten in diesem Fall nach genauer 
Betrachtung in sehr guter Näherung als Referenz (Ngaum — œ). Der Unter- 
schied zwischen den ROC-Kurven ist definiert als das Mittel der Abstände 
der Punkte der 51 Realisierungen zu den Punkten mit Ngaum = 2 000, welche 
die ROC-Kurven im F-H-Raum aufspannen. 

Ein weiterer frei wählbarer Parameter bei der Generierung eines Random 
Forests ist die Anzahl von Prädiktoren, die angibt, wie viele Prädiktoren bei 
jedem Split innerhalb eines Entscheidungsbaums auf den bestmöglichen Split 
getestet werden sollen (vgl. Kapitel 3.4; z.B. Hatz, 2018). Die Unterschiede 
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Abbildung B.6: Abstand der ROC-Kurven fiir unterschiedliche Anzahlen von Entschei- 
dungsbäumen Npaum in jeweils 51 Random Forest-Realisierungen mit unterschiedlichem 
Urr € [0,01; 0,99] bei einer Kombination aus Undersampling und Oversampling (usp = 0,7) 
zu der als Referenz angesehenen ROC-Kurve mit 2000 Entscheidungsbäumen. Die rote Kurve 
gibt das arithmetische Mittel über die 51 Modelle an; der dunkelgraue Bereich stellt den Inter- 
quartilsbereich dar; der hellgraue Bereich markiert das 5. und 95. Perzentil. 


zwischen ähnlichen Werten für Nspıir sind — bezogen auf die hier vorliegende 
Arbeit — in der Regel nicht von Bedeutung und bedürfen keiner tieferen 
Diskussion. Soweit nicht anders angegeben werden im Folgenden die in 
Kapitel 3.4.3 genannten Standardwerte verwendet. Ist 1 < Npo < 6, so ist 
Nsplit = 2 eine geeignete Wahl. 

Über die beiden genannten Parameter hinaus gibt es einige weitere Parameter, 
welche die Charakteristik eines Random Forests beschreiben, wie z. B. solche, 
die das Wachstum der Entscheidungsbäume beeinflussen (vgl. Kapitel 3.4). 
Diese Parameter bleiben in dieser Arbeit unangetastet und es werden die von 
Liaw und Wiener (2018) vorgegebenen Standardwerte verwendet. Nähere In- 


formationen finden sich beispielsweise dort wie auch bei Breiman (2001). 
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Lebensdauer im Parabelmodell 


Für den in Kapitel 5.1.2 vorgestellten Parabelansatz erhält man durch Umfor- 


mulieren von Gleichung (5.2): 


u Acat? _ W 
Acat—Az(t)+Ma  1(t,Az(t)) ` 


Tz (C.1) 
Gleichung (C.1) liefert nur für u4 < Az(t) <Azxru(t) = 4cat + ua sinnvolle 
Werte (vgl. Kapitel 5.1.2). Für Az(t) < ua ist Tz < t und bei Az(t) = Az grit (t) 
findet sich eine Polstelle mit Tz — +% für Az(t) + As tal, Die maximale 


zu erwartende Zellfläche kann mittels (5.2) auf 


AY?) = Bat calz (C.2) 


Z,max 


abgeschätzt werden. 

Durch die zeitliche Auflösung der Beobachtungen von 5 min ergeben sich 
aufgrund der Bestimmungsmethodik der Zellfläche verschiedene Unsicher- 
heiten: Möglicherweise wird ein Teil der detektierten konvektiven Zelle von 
sich selbst oder von anderen Zellen abgeschattet, oder der Reflektivitätsfaktor 
liegt an einigen Gitterpunkten im Radarbild knapp unter 46 dBZ, sodass diese 
nicht zum Zellobjekt dazuzählen. Zur Abschätzung dieser Unsicherheiten für 
die zu erwartende Lebensdauer bietet sich entweder die Variation des beob- 
achteten Zeitpunkts um einige Minuten oder die Variation der beobachteten 


Zellfläche zu einem Zeitpunkt an. Für letztere gilt beispielsweise folgende 
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Tabelle C.1: Beispielwerte der zu erwartenden Lebensdauer Tz sowie Unsicherheiten derer ATZ 
für verschiedene Werte der Variation der Zellfläche AAz, berechnet mit der exakten Variante 
von Gleichung (C.3). In den Spalten 2 bis 4 sind die Werte für Az = 30km? zu verschiedenen 
Zellaltern ¢ dargestellt, in den Spalten 5 und 6 solche für Az = 45 km?. 


Az (km?) — 30 45 
t (min) — 15 30 60 30 60 
Tz(min)> 294 39,7 68,4 90,4 90,1 
AAz (km?) | ATz (min) | 
—10 —15,4 —10,8 —9,5 —41,5 15% 
—6 —11,7 +73 —6,0 -30:5 —10,2 
—2 —53 =26 së) —13,1 =37 
+2 8,3 3,2 2,3 18,5 4,0 
+6 579 11,5 73 94,1 131 
+10 = 23,7 13,1 513,4 242 
Abschätzung: 
C 
Tz + ATz = 
S S n — AAz 
— ATZ= cl l L) 
Z "Ln-Ads n 
AA AAz\? E 
BE z+ (%2) +0 (2) (C.3) 
njin n n 


Die Unsicherheit bezüglich der Amplitude der Entwicklung der Zellfläche 
kann dann einfach über A. = c4ATz bestimmt werden. Die Unsicherheit be- 
züglich der zu erwartenden Lebensdauer ist größer, je jünger das Zellobjekt 
ist (Tabelle C.1). Hier liegen die Kurven der Parabelschar in Abbildung 5.8a 


sehr dicht beisammen. Für ein Zellobjekt, das beispielsweise nach 17 min 
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eine Größe von 30km? erreicht hat, prognostiziert das Parabelmodell deter- 
ministisch eine verbleibende Lebenszeit von 14,4 min (Tz = 29,4 min). Ist ein 
Zellobjekt zum gleichen Zeitpunkt 36 km? groß (AAz = 6km?), so lautet die 
Prognose 57,9 min länger, also 72,3 min verbleibende Lebenszeit. Betrachtet 
man zwei Zellobjekte nach 30 min, ist die Entwicklung des einen Objekts mit 
einer Fläche von 45 km? deutlich unsicherer als die des anderen mit einer Flä- 
che von 30 km?. Die Fläche des letzteren wird sich in den folgenden Minuten 
sehr wahrscheinlich rasch verkleinern. 

Die Gleichungen (C.1) und (C.3) gelten darüber hinaus für den erweiterten 
Parabelansatz aus Kapitel 5.3.1 mit der Ersetzung ca = ca(u), der die Abhän- 
gigkeit der Parabelschar von einer Umgebungsvariablen berücksichtigt. Für 
t = 30 min und Az = 45km? ergibt sich ohne Berücksichtigung einer Um- 
gebungsvariablen gemäß Tabelle C.1 eine zu erwartende Lebensdauer von 
Tz ~ 90 min. In Abhängigkeit vom LlIjoonpa findet man hingegen folgende 
Werte für Tz: 


Lhoonpa = 3K = > Tz ~ 118,7min 
Ll oonpa = 1K = > Tz ~ 81,6min 
Llioonpa = JK = > Tz © 66,4min 
Lhoonpa = —3K = > Tz ~ 58,1 min 
Llioonpa = —SK = > Tz © 52,9min (C.4) 


Je niedriger der LIıoonpa, desto höher ist die Erwartung für die Entwicklung 
einer Zellfläche von mehr als 45km? nach der ersten halben Stunde. Daher 
sinkt die zu erwartende Lebensdauer, wenn das Objekt trotz guter Umge- 
bungsbedingungen (hier: LI) in der ersten halben Stunde nicht allzu stark 


gewachsen ist. 
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5.3 


(a) 500 hPa Geopotential (m? s~?) 


(b) 850 hPa pseudopotentielle Temperatur (K) 


Abbildung D.1: Räumliche Verteilung des 500 hPa Geopotentials und der 850 hPa pseudopoten- 
tiellen Temperatur über dem COSMO-EU-Gebiet, berechnet aus der Assimilationsanalyse von 
COSMO-EU für den 28. Juli 2013 (15 UTC). 

Gegen 13UTC hatten sich zwei Superzellen über dem Schwarzwald gebildet, die nörd- 
lich der Schwäbischen Alb entlangzogen und Schäden in Milliardenhöhe verursach- 
ten (Kunz et al., 2018). Deutschland lag an diesem Tag in einer südwestlichen Höhenströmung 
auf der Vorderseite eines ausgeprägten Trogs über dem Ostatlantik. Eine Luftmassengrenze 
trennte hierbei mediterrane feucht-heiße Luft in der Südosthälfte (850hPa Ops > 335 K) von 
mäßig kühler Atlantikluft in der Nordwesthälfte Deutschlands (850 hPa Ops < 310 K). Fortset- 
zung in Abbildung D.2. 
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(©) Supercell Composite Parameter (SCP) (d) Significant Hail Parameter (SHIP) 


Abbildung D.2: Räumliche Verteilung verschiedener Umgebungsvariablen über Mitteleuropa, 
berechnet aus der Assimilationsanalyse von COSMO-EU für den 28. Juli 2013 (15 UTC). 
(Fortsetzung zu Abbildung D.1) In der feucht-heißen Luft wiesen hohe AQ,,-Werte (Differenz 
der bodennahen 8ps und der 300 hPa 8ps) von regional über 10 K auf eine hohe potentielle Insta- 
bilität hin. Im Grenzbereich zur kühleren Luft ließ sich ein Maximum der DLS von rund 30 ms! 
beobachten (nicht gezeigt). Die SRH zwischen 0 und 3 km über Grund erreichte um 15 UTC teils 
extrem hohe Werte von über 500 m? s”?, sodass besonders über Baden-Württemberg sehr gute 
Bedingungen für organisierte hochreichende Konvektion sowie für großen Hagel herrschten, wie 
auch die kombinierten Indizes SCP und SHIP südöstlich von Stuttgart (im unmittelbaren Vorfeld 
der beobachteten Superzellen) anzeigen. 
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Abbildung D.3: Klimatologie der 850hPa Temperatur (°C) tiber Europa fiir den Zeit- 
raum 1979 — 2019, gemittelt über die Monate April bis Oktober, basierend auf Reana- 
lysedaten (ERAS, European Centre for Medium-Range Weather Forecasts). Erstellt mit 
dem Climate Reanalyzer (Climate Change Institute, University of Maine, USA; https:// 
ClimateReanalyzer.org). Abgerufen am 7. Januar 2021. 
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Abbildung D.4: Hauptkomponentenanalyse für drei Paare von Umgebungsvariablen zur Illus- 
tration der linearen Korrelation. Die Variablenwerte wurden zuvor standardisiert, d.h. um den 
Ursprung zentriert und auf den Variationsbereich o = | normiert, sodass die dimensionslosen 
Größen vergleichbar sind (z-Transformation). 
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Abbildung D.5: Wie Abbildung 6.5, nur statt einer Aufteilung nach verschiedenen Werten fiir die 
Lebensdauer auf der Abszisse nun aufgespalten nach der DLS fiir (a,c) die logistische Regression 
und (b,d) den Random Forest. 
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Abbildung D.6: Wie Abbildung 6.5, nur statt einer Aufteilung nach verschiedenen Werten fiir 
die Lebensdauer auf der Abszisse nun aufgespalten nach dem LIjoonpa fiir (a,c) die logistische 
Regression und (b,d) den Random Forest. 
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Abbildung D.7: Mittlere Ensemblevorhersage für die Lebensdauer Tz (min; Farbskala), aufge- 
teilt in verschiedene Gruppen der Prädiktoren DLS und LlIjoonPa, für (a) den linearen Polynom- 
ansatz und (b) den Random Forest in U2 ohne Resampling. Graue Kreuze geben Gruppen an, in 
denen 20 oder weniger Zellobjekte vorliegen. 


378 


D Ergänzende Abbildungen 


140 | BRMSE = 40.2 min E 


o N 
os © 
N ji 


o @ 
o © 
ji N 


Vorhergesagte Lebensdauer (min) 
> 
© 
i 


204 


40 60 80 100 120 140 


Beobachtete Lebensdauer (min) 


(a) Modellstudie U2 (POLY; linear) 


0 20 


140) BRMSE = 39.6 min SÉ 


> N 
So © 
ji N 


o o 
ò © 
N ` 


Vorhergesagte Lebensdauer (min) 
> 
© 
i 


204 


40 60 80 100 120 140 


Beobachtete Lebensdauer (min) 


(c) Modellstudie U6 (POLY; linear) 
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(e) Modellstudie U15 (POLY; linear) 
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(b) Modellstudie U2 (RF; Regression) 
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(d) Modellstudie U6 (RF; Regression) 
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Abbildung DS: Wie Abbildung 6.14 in (a,b) U2, (c,d) U6 und (e,f) U15. Der Polynomansatz ist 


hier linear. 
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(c) Modellstudie Z15+ (POLY; N, = 5) 
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(b) Modellstudie Z5 (RF; Regression) 
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(d) Modellstudie Z15* (RE; Regression) 


Abbildung D.9: Wie Abbildung 6.14, nur in (a,b) Z5 und (c,d) ZI5*. 
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(b) Modellstudie Z5 (SF) 
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Abbildung D.10: Wie Abbildung 6.15, nur basierend auf 51 Realisierungen (a,c) des Parabelmo- 
dells und (b,d) des Modells basierend auf dem Strömungsfeldansatz. Als Prädiktor wird die Zell- 
fläche zum Zeitpunkt der (a,b) zweiten bzw. (c,d) vierten Detektion verwendet (Az(t = 7min), 


Az(t = 17min)). 
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Abbildung D.11: Wie Abbildung D.7, nur mit der maximalen Zellfläche Az max (km?; Farbskala) 
als Prädiktand. 
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Abbildung D.12: Wie Abbildung D.8, nur mit der maximalen Zellflache Az max (km?) als 
Prädiktand. 
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(b) Modellstudie Z5 (RF; Regression) 


120 


100 4 


804 


BRMSE = 10.1 km? 


H 20 


Beobachtete maximale Zellfläche (km 


40 


60 


80 


tip 


120 


0.25 


Relative Haufigkeit 


(d) Modellstudie Z15* (RE; Regression) 


Abbildung D.13: Wie Abbildung DO. nur mit der maximalen Zellfläche Az max (km?) als 


Prädiktand. 
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Abbildung D.14: Wie Abbildungen 6.22c+d und 6.23c+d, nur mit einem modifizierten Resam- 


pling mit @ysp = 0,85. 
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Abbildung D.15: Wie Abbildung 6.17, nur mit der maximalen Zellfläche Az max (km?) als 
Prädiktand. 
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Abbildung D.16: Wie Abbildung D.10, 
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Abbildung D.17: Wie Abbildungen 6.22c+d und 6.23c+d, nur ohne Resampling. 
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Tabelle E.2: Brier (Skill) Scores für die Ensemblevorhersage von 51 unterschiedlichen Modellen 
für die logistische Regression. Die Referenzvorhersagen stehen für konstante Vorhersagen (im- 
mer lange/kurze Lebensdauer), für die in Kapitel 3.6.1 beschriebene 50 %-Vorhersage (unsicher) 
und die Vorhersage, die zufällig aus einer uniformen Verteilung der Eintrittswahrscheinlichkei- 
ten zieht (Zufall uniform), sowie eine Vorhersage, die zufällig aus der originalen Verteilung der 
Eintrittshäufigkeiten zieht (Zufall Verteilung). 


Auswahl — alle Zellobjekte nur lange nur kurze 
Score | Lebensdauer Lebensdauer 
BS log. Regression 0,35 0,17 0,36 
BS immer lang 0,97 0,00 1,00 
BS immer kurz 0,03 1,00 0,00 
BS unsicher 0,25 0,25 0,25 
BS Zufall uniform 0,33 0,33 0,33 
BS Zufall Verteilung 0,05 0,97 0,03 
BSS immer lang 0,64 — 0,64 
BSS immer kurz —11,45 0,83 — 
BSS unsicher —0,42 0,32 —0,44 
BSS Zufall uniform —0,06 0,49 —0,08 
BSS Zufall Verteilung —5,55 0,83 —11,39 
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Tabelle E.3: Wie Tabelle E.2, 
Referenzvorhersagen. 


nur für den Random Forest und ohne Darstellung der BS für die 


Auswahl — alle Zellobjekte nur lange nur kurze 
Score | Lebensdauer Lebensdauer 
BS Random Forest 0,26 0,15 0,27 
BSS immer lang 0,73 — 0,73 
BSS immer kurz —8,29 0,85 — 

BSS unsicher —0,06 0,38 —0,07 
BSS Zufall uniform 0,21 0,54 0,20 
BSS Zufall Verteilung —3,89 0,84 —8,21 


394 


Danksagung 


Die vorliegende Arbeit entstand am Institut fiir Meteorologie und Klimafor- 
schung (IMK-TRO) des Karlsruher Instituts fiir Technologie (KIT) im engen 
Austausch mit dem Deutschen Wetterdienst (DWD). Dem Bundesministe- 
rium für Verkehr und digitale Infrastruktur (BMVT) danke ich zunächst für 
die Finanzierung meines Forschungsprojekts, welche diese fruchtbare Zu- 
sammenarbeit ermöglichte. Dem Deutschen Wetterdienst danke ich für die 
Bereitstellung der Daten des Zellverfolgungsalgorithmus KONRAD und der 
COSMO-Assimilationsanalysen, sowie für die Möglichkeit vor Ort in Offen- 
bach und vom KIT aus seine HPC-Systeme zu nutzen. 

Ein ganz besonderes Dankeschön gilt meinem Doktorvater Prof. Dr. Micha- 
el Kunz, der mir stets viel Vertrauen entgegenbrachte, große Freiräume zur 
Entwicklung und Umsetzung eigener Ideen gab und gleichzeitig bei konkre- 
ten Fragen immer für konstruktive Diskussionen zur Verfügung stand. Durch 
die regelmäßigen Reisen nach Offenbach, die er mir für den Austausch und 
die Zusammenarbeit mit dem DWD ermöglichte, entwickelte sich im Ver- 
lauf meines Forschungsprojekts ein fruchtbarer Synergismus. Die angeneh- 
me Arbeitsatmosphäre in unserer Arbeitsgruppe Atmosphärische Risiken am 
IMK-TRO, die Michael schafft, legte zudem den Grundstein für meine moti- 
vierte Umsetzung des Projekts. Ein besonderer Dank gilt ihm auch dafür, dass 
er mir die nötige Zeit und die Freiräume unter anderem für mein Engagement 
im Rahmen der JGW-Nachhaltigkeitsakademien 2018 und 2019 gegeben hat. 


395 


Danksagung 


Vielen Dank an Prof. Dr. Roland Potthast und Prof. Dr. Christoph Kottmei- 
er fiir die Ubernahme des Korreferats, die Unterstützung des Projekts sowie 
wertvolle Diskussionen. Roland, dir gilt ein besonderer Dank fiir die spannen- 
den Gespräche über verschiedene mathematische und numerische Ansätze, 
die ich sehr genossen habe. Mein Dank geht zudem an Dr. Ulrich Blahak, 
Dr. Robert Feger und Dr. Kathrin Wapler, die mich und das Projekt seitens 
des DWD begleitet haben. Der Austausch bei unseren Treffen war sehr anre- 
gend, sodass wir zusammen viele Ideen entwickeln konnten. Außerdem vie- 
len Dank für eure Hilfe bei der Beseitigung der ein oder anderen technischen 
Schwierigkeit. Insbesondere dir, Uli, herzlichen Dank für dein Engagement 
und die Anbindung an SINFONY, und danke allen SINFONY-Mitarbeitern, 
die ich in den letzten Jahren kennen lernen durfte, für die freundliche Auf- 
nahme in das Omega-Haus bei meinen Reisen nach Offenbach und die ge- 
mütlichen Abende während der ECSS in Krakau. 

Ein riesiges Dankeschön geht außerdem an die gesamte Arbeitsgruppe Atmo- 
sphärische Risiken. Egal ob auf der Arbeit, beim Skifahren, Bogenschießen 
oder Grillen, die Atmosphäre ist stets positiv und freundschaftlich und führt 
dazu, dass ich jeden Tag gerne ins Büro komme - sofern die äußeren Um- 
stände dies erlauben, die uns seit vielen Monaten mehr oder weniger an unser 
Heimbüro fesseln. Danke also an Sanna, Heinz Jürgen, Melanie, Manu, Mar- 
kus, Sinan und Mathis für die schönen letzten drei Jahre und vielleicht ja noch 
das ein oder andere zukünftige gemeinsame Jahr. Manu, dir vielen Dank für 
diverse fachliche und nicht-fachliche Gespräche über das Wetter und die Welt. 
Melanie und Heinz Jürgen, euch vielen Dank für die gemeinsamen sportli- 
chen Aktivitäten (Ob wir jemals einen Kraulschwimmkurs zu Ende führen 
dürfen?). Sanna, dir vielen Dank für deine stete Hilfsbereitschaft, den regen 
Austausch zwischen unseren benachbarten Büros (auch von Tee, Schaumküs- 
sen oder anderen Leckereien) und dein großes Einfühlungsvermögen. Natür- 
lich auch ein großes Dankeschön für deine wertvollen Kommentare während 
des Schreibprozesses dieser Dissertation, welches ich ebenso an Flo richte, 


der sich ebenfalls mühevoll durch viele Seiten hindurchgewälzt und hilfreiche 


396 


Danksagung 


Hinweise gegeben hat. Flo, dir ohnehin ein kraftiges Danke fiir unseren guten 
Austausch und die vielen musikalisch-fröhlichen Abendstunden, die wir mit 
unseren Freunden beim KIT-Konzertchor bislang verbracht haben. 

Vielen Dank auch für die große Unterstützung durch meine weiteren Kol- 
legen am IMK-TRO. Ich danke Uli Corsmeier und Roswitha Marioth 
für einen wohlwollenden Rahmen, Jan Handwerker für spannende Tage 
in den Tiefen der Radarmeteorologie, Joaquim Pinto und Patrick Ludwig 
für ein interessantes IPCC-Seminar sowie Peter Knippertz, Corinna Hoo- 
se und Christian Grams für den angenehmen Austausch während meiner 
Übungsgruppenleitung zu den Theorie-Vorlesungen. Ein besonderer Dank 
gilt Hans Schipper für das gute Zusammenwirken bei unseren gemeinsa- 
men Outreach-Aktivitäten. Hans, danke auch für die vielen spannenden 
Klimawandel-Diskussionen und gedanklichen Ausflüge in die Niederlande 
während des Mittagessens. Heike Vogel danke ich für den warmen Empfang 
am IMK-TRO und die freundliche Hilfsbereitschaft zur Beseitigung techni- 
scher COSMO-Probleme. Ein großer Dank geht zudem an Gabi Klinck und 
Gerhard Brückel für eine hervorragende Administration der Infrastruktur und 
die stete Hilfsbereitschaft bei technischen Fragen. Gabi, danke für die vie- 
len aufmunternden Gespräche zu späterer Stunde am Institut insbesondere an 
Tagen, an denen nicht alles so läuft, wie man es sich wünscht. Vielen Dank 
auch an Doris und Rosi für das stets zuverlässige und angenehme Regeln 
von organisatorischen Dingen aller Art. Auch allen übrigen Kollegen, die ich 
in den letzten Jahren kennen lernen durfte, danke ich sehr herzlich für die 
angenehme Atmosphäre. 

Ein besonders großer Dank geht natürlich an meine ehemaligen Kommi- 
litonen, meine Freunde und meine Familie. Ich danke meiner Oma Erika, 
meiner Tante Christel sowie meinen Paten Elfi und Rainer, die sowohl meine 
musikalische Jugend als auch mein wissenschaftliches Studium stets mit 
Interesse verfolgt und unterstützt haben. Nicht zu vergessen natürlich der 
Rest meiner wunderbaren, herzlichen saarländischen Großfamilie! Tino, du 


bist jeden Tag an meiner Seite und unterstützt mich bei allem, was ich tue. 


397 


Danksagung 


Du hast mir den Riicken an so vielen Tagen freigehalten, an denen ich mich 
voll und ganz auf die Dissertation konzentrieren konnte. Wenn es nötig ist, 
munterst du mich auf. Jeden Tag aufs Neue schenkst du mir Vertrauen und 
Kraft. Dafiir bin ich dir unendlich dankbar. Anna, du bist nicht nur eine 
hervorragende Korrekturleserin, sondern auch eine wunderbare Schwester, 
die immer einen besonderen Platz in meinem Leben haben wird. Zuletzt 
gilt ein großes, herzliches Dankeschön meinen Eltern Ingrid und Christian, 
die zu jeder Zeit für mich da sind (auch wenn uns knapp 200 Kilometer 
trennen) und mir nicht nur während des Studiums und der Promotion viel 


Kraft gegeben haben. Danke, dass es euch gibt! 


Karlsruhe, im Januar 2021 Jannik Wilhelm 


398 


Wissenschaftliche Berichte des Instituts 
fur Meteorologie und Klimaforschung 
des Karlsruher Instituts fur Technologie 
(0179-5619) 


Bisher erschienen: 


Nr. 1: Fiedler, E / Prenosil, T. 
Das MESOKLIP-Experiment. (Mesoskaliges Klimaprogramm 
im Oberrheintal) 


Nr. 2: Tangermann-Dlugi, G. 
Numerische Simulationen atmosphärischer Grenzschicht- 
strömungen über langgestreckten mesoskaligen Hügel- 
ketten bei neutraler thermischer Schichtung 


Nr. 3: Witte, N. 
Ein numerisches Modell des Wärmehaushalts fließender 
Gewässer unter Berücksichtigung thermischer Eingriffe 


Nr. 4: Fiedler, F. / Höschele, K. (Hrsg.) 
Prof. Dr. Max Diem zum 70. Geburtstag 


Nr. 5: Adrian, G. 
Ein Initialisierungsverfahren für numerische 
mesoskalige Strömungs modelle 


Nr. 6: Dorwarth, G. 
Numerische Berechnung des Druckiderstandes 
typischer Geländeformen 


Nr. 7: Vogel, B.; Adrian, G. / Fiedler, F. 
MESOKLIP-Analysen der meteorologischen Beobachtungen 
von mesoskaligen Phänomenen im Oberrheingraben 


Nr. 8: Hugelmann, C.-P. 
Differenzenverfahren zur Behandlung der Advektion 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


10: 


11: 


12: 


13: 


14: 


15: 


16: 


17: 


18: 


19: 


Hafner, T. 
Experimentelle Untersuchung zum Druckwiderstand 
der Alpen 


Corsmeier, U. 
Analyse turbulenter Bewegungsvorgänge in der maritimen 
atmosphärischen Grenzschicht 


Walk, O. / Wieringa, J.(eds) 
Tsumeb Studies of the Tropical Boundary-Layer Climate 


Degrazia, G. A. 
Anwendung von Ahnlichkeitsverfahren auf die turbulente 
Diffusion in der konvektiven und stabilen Grenzschicht 


Schädler, G. 
Numerische Simulationen zur Wechselwirkung zwischen 
Landoberflächen und atmophärischer Grenzschicht 


Heldt, K. 
Untersuchungen zur Überströmung eines mikroskaligen 
Hindernisses in der Atmosphäre 


Vogel, H. 
Verteilungen reaktiver Luftbeimengungen im Lee einer 
Stadt - Numerische Untersuchungen der relevanten Prozesse 


Höschele, K.(ed.) 

Planning Applications of Urban and Building Climatology - 
Proceedings of the IFHP / CIB-Symposium Berlin, 

October 14-15, 1991 


Frank, H. P. 
Grenzschichtstruktur in Fronten 


Müller, A. 

Parallelisierung numerischer Verfahren zur Beschreibung 
von Ausbreitungs- und chemischen Umwandlungsprozessen 
in der atmosphärischen Grenzschicht 


Lenz, C.-J. 
Energieumsetzungen an der Erdoberflache in gegliedertem 
Gelände 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 20: 


Nr. 21: 


Nr. 22: 


Nr. 23: 


Nr. 24: 


Nr. 25: 


Nr. 26: 


Nr. 27: 


Nr. 28: 


Nr. 29: 


Schwartz, A. 
Numerische Simulationen zur Massenbilanz chemisch 
reaktiver Substanzen im mesoskaligen Bereich 


Beheng, K. D. 
Professor Dr. Franz Fiedler zum 60. Geburtstag 


Niemann, V. 
Numerische Simulation turbulenter Scherströmungen 
mit einem Kaskadenmodell 


Koßmann, M. 

Einfluß orographisch induzierter Transportprozesse auf 
die Struktur der atmosphärischen Grenzschicht 

und die Verteilung von Spurengasen 


Baldauf, M. 
Die effektive Rauhigkeit über komplexem Gelände - 
Ein Störungstheoretischer Ansatz 


Noppel, H. 
Untersuchung des vertikalen Wärmetransports durch die 
Hangwindzirkulation auf regionaler Skala 


Kuntze, K. 
Vertikaler Austausch und chemische Umwandlung von 
Spurenstoffen über topographisch gegliedertem Gelände 


Wilms-Grabe, W. 

Vierdimensionale Datenassimilation als Methode zur 
Kopplung zweier verschiedenskaliger meteorologischer 
Modellsysteme 


Grabe, F. 

Simulation der Wechselwirkung zwischen Atmosphäre, 
Vegetation und Erdoberfläche bei Verwendung 
unterschiedlicher Parametrisierungsansätze 


Riemer, N. 
Numerische Simulationen zur Wirkung des Aerosols auf die 
troposphärische Chemie und die Sichtweite 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 30: 


Nr. 31: 


Nr. 32: 


Nr. 33: 


Nr. 34: 


Nr. 35: 


Nr. 36: 


Nr. 37: 


Nr. 38: 


Nr. 39: 


Braun, F. J. 
Mesoskalige Modellierung der Bodenhydrologie 


Kunz, M. 
Simulation von Starkniederschlagen mit langer Andauer 
Ober Mittelgebirgen 


Bäumer, D. 
Transport und chemische Umwandlung von Luftschadstoffen 
im Nahbereich von Autobahnen - numerische Simulationen 


Barthlott, C. 
Kohärente Wirbelstrukturen in der atmosphärischen 
Grenzschicht 


Wieser, A. 
Messung turbulenter Spurengasflüsse vom Flugzeug aus 


Blahak, U. 
Analyse des Extinktionseffektes bei Niederschlagsmessungen 
mit einem C-Band Radar anhand von Simulation und Messung 


Bertram, I. 

Bestimmung der Wasser- und Eismasse hochreichender 
konvektiver Wolken anhand von Radardaten, Modell- 
ergebnissen und konzeptioneller Betrachtungen 


Schmoeckel, J. 

Orographischer Einfluss auf die Strömung abgeleitet 
aus Sturmschäden im Schwarzwald während des 
Orkans ,,Lothar” 


Schmitt, C. 
Interannual Variability in Antarctic Sea Ice Motion: 
Interannuelle Variabilitat antarktischer Meereis-Drift 


Hasel, M. 
Strukturmerkmale und Modelldarstellung der Konvektion 
Ober Mittelgebirgen 


Die Bande sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Ab Band 40 erscheinen die Wissenschaftlichen Berichte des Instituts 
fur Meteorologie und Klimaforschung bei KIT Scientific Publishing 
(ISSN 0179-5619). Die Bande sind unter www.ksp.kit.edu als PDF frei 
verfügbar oder als Druckausgabe bestellbar. 


Nr. 40: 


Nr. 41: 


Nr. 42: 


Nr. 43: 


Nr. 44: 


Nr. 45: 


Nr. 46: 


Nr. 47: 


Nr. 48: 


Lux, R. 

Modellsimulationen zur Strömungsverstärkung von 
orographischen Grundstrukturen bei Sturmsituationen 
ISBN 978-3-86644-140-8 


Straub, W. 

Der Einfluss von Gebirgswellen auf die Initiierung und 
Entwicklung konvektiver Wolken 

ISBN 978-3-86644-226-9 


Meißner, C. 

High-resolution sensitivity studies with the regional climate 
model COSMO-CLM 

ISBN 978-3-86644-228-3 


Höpfner, M. 

Charakterisierung polarer stratosphärischer Wolken mittels 
hochauflösender Infrarotspektroskopie 

ISBN 978-3-86644-294-8 


Rings, J. 

Monitoring the water content evolution of dikes 

ISBN 978-3-86644-321-1 

Riemer, M. 

Außertropische Umwandlung tropischer Wirbelstürme: 
Einfluss auf das Stro6mungsmuster in den mittleren Breiten 
ISBN 978-3-86644-766-0 

Nicht erschienen 


Nicht erschienen 


Nicht erschienen 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


49: 


50: 


51: 


52: 


53: 


54: 


55: 


56: 


57: 


Peters, T. 

Ableitung einer Beziehung zwischen der Radarreflektivität, 
der Niederschlagsrate und weiteren aus Radardaten 
abgeleiteten Parametern unter Verwendung von Methoden 
der multivariaten Statistik 

ISBN 978-3-86644-323-5 


Khodayar Pardo, S. 

High-resolution analysis of the initiation of deep convection 
forced by boundary-layer processes 

ISBN 978-3-86644-770-7 


Träumner, K. 

Einmischprozesse am Oberrand der konvektiven 
atmosphärischen Grenzschicht 

ISBN 978-3-86644-771-4 


Nicht erschienen 


Lundgren, K. 
Direct Radiative Effects of Sea Salt on the Regional Scale 
ISBN 978-3-86644-773-8 


Sasse, R. 

Analyse des regionalen atmosphärischen Wasserhaushalts 
unter Verwendung von COSMO-Simulationen und 
GPS-Beobachtungen 

ISBN 978-3-86644-774-5 


Grenzhäuser, J. 

Entwicklung neuartiger Mess- und Auswertungs- 
strategien für ein scannendes Wolkenradar und 
deren Anwendungsbereiche 

ISBN 978-3-86644-775-2 


Grams, C. 

Quantification of the downstream impact of extratropical 
transition for Typhoon Jangmi and other case studies 
ISBN 978-3-86644-776-9 


Keller, J. 

Diagnosing the Downstream Impact of Extratropical 
Transition Using Multimodel Operational Ensemble 
Prediction Systems 

ISBN 978-3-86644-984-8 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 58: 


Nr. 59: 


Nr. 60: 


Nr. 61: 


Nr. 62: 


Nr. 63: 


Nr. 64: 


Nr. 65: 


Nr. 66: 


Nr. 67: 


Mohr, S. 
Anderung des Gewitter- und Hagelpotentials im Klimawandel 
ISBN 978-3-86644-994-7 


Puskeiler, M. 
Radarbasierte Analyse der Hagelgefahrdung in Deutschland 
ISBN 978-3-7315-0028-5 


Zeng, Y. 

Efficient Radar Forward Operator for Operational 
Data Assimilation within the COSMO-model 

ISBN 978-3-7315-0128-2 


Nicht erschienen 


Jerger, D. 

Radar Forward Operator for Verification of Cloud 
Resolving Simulations within the COSMO Model 
ISBN 978-3-7315-0172-5 


Maurer, V. 

Vorhersagbarkeit konvektiver Niederschlage: 
Hochauflösende Ensemblesimulationen für Westafrika 
ISBN 978-3-7315-0189-3 


Stawiarski, C. 

Optimizing Dual-Doppler Lidar Measurements of Surface 
Layer Coherent Structures with Large-Eddy Simulations 
ISBN 978-3-7315-0197-8 


Mahlke, H. 

Mechanismen der Auslösung hochreichender Konvektion 
im südwestdeutschen Mittelgebirgsraum 

ISBN 978-3-7315-0203-6 


Fosser, G. 

Precipitation statistics from regional climate model 
at resolutions relevant for soil erosion 

ISBN 978-3-7315-0227-2 


Adler, B. 

Boundary-Layer Processes Producing Mesoscale 
Water-Vapour Variability over a Mountainous Island 
ISBN 978-3-7315-0247-0 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 68: Kraut, I. 
Separating the Aerosol Effect in Case of a ,,Medicane” 
ISBN 978-3-7315-0405-4 


Nr. 69: Breil, M. 
Einfluss der Boden-Vegetation-Atmosphären Wechsel- 
wirkungen auf die dekadische Vorhersagbarkeit des 
Westafrikanischen Monsuns 
ISBN 978-3-7315-0420-7 


Nr. 70: Lott, F. F. 
Wind Systems in the Dead Sea and Footprints 
in Seismic Records 
ISBN 978-3-7315-0596-9 


Nr. 71: Rieger, D. 
Der Einfluss von naturlichem Aerosol auf Wolken 
Ober Mitteleuropa 
ISBN 978-3-7315-0672-0 


Nr. 72: Loewe, K. 
Arctic mixed-phase clouds. Macro- and 
microphysical insights with a numerical model 
ISBN 978-3-7315-0686-7 


Nr. 73: Piper, D. A. 
Untersuchung der Gewitteraktivitat und der 
relevanten groBraumigen Steuerungsmechanismen 
Uber Mittel- und Westeuropa 
ISBN 978-3-7315-0701-7 


Nr. 74: Metzger, J. 
Wind Systems and Energy Balance in the Dead Sea Valley 
ISBN 978-3-7315-0699-7 


Nr. 75: Deetz, K. 
Assessing the Aerosol Impact on Southern West 
African Clouds and Atmospheric Dynamics 
ISBN 978-3-7315-0744-4 


Nr. 76: Ehmele, F. T. 
Stochastische Simulation groBflachiger, hochwasser- 
relevanter Niederschlagsereignisse 
ISBN 978-3-7315-0761-1 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


Nr. 


77: 


78: 


79: 


80: 


81: 


82: 


83: 


84: 


Hackenbruch, J. 

Anpassungsrelevante Klimaänderungen für 
städtische Baustrukturen und Wohnquartiere 
ISBN 978-3-7315-0771-0 


Schmidberger, M. 

Hagelgefährdung und Hagelrisiko in Deutschland 
basierend auf einer Kombination von Radardaten 
und Versicherungsdaten 

ISBN 978-3-7315-0846-5 


Gruber, S. 

Contrails and Climate Engineering - Process Studies on 
Natural and Artificial High-Level Clouds and Their Impact 
on the Radiative Fluxes 

ISBN 978-3-7315-0896-0 


Walter, C. 

Simulationen der Ausbreitung von Vulkanasche unter 
expliziter Berucksichtigung der optischen Eigenschaften 
der Aschepartikel 

ISBN 978-3-7315-0939-4 


Caldas-Alvarez, A. 

Atmospheric Moisture Effects on 

Deep Convection in the Western Mediterranean 
ISBN 978-3-7315-0947-9 


Sedlmeier, K. 

Near future changes of compound extreme events 
from an ensemble of regional climate simulations 
ISBN 978-3-7315-0476-4 


Brecht, B. M. 

Die urbane Wärmebelastung unter Einfluss lokaler 
Faktoren und zukünftiger Klimaänderungen 

ISBN 978-3-7315-0990-5 


Singh, S. 

Convective precipitation simulated with ICON 
over heterogeneous surfaces in dependence 
on model and land-surface resolution 

ISBN 978-3-7315-1068-0 


Die Bände sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


Nr. 85: Wilhelm, J. 
Einfluss atmosphärischer Umgebungsbedingungen auf den 
Lebenszyklus konvektiver Zellen in der Echtzeit-Vorhersage 
ISBN 978-3-7315-1182-3 


Die Bande sind unter www.ksp.kit.edu als PDF frei verfügbar oder als Druckausgabe bestellbar. 


85 
JANNIK WILHELM 


Einfluss atmosphärischer Umgebungsbedingungen auf den 
Lebenszyklus konvektiver Zellen in der Echtzeit-Vorhersage 


Prazise Warnungen vor Gewittern und ihren Begleiterscheinungen wie Starkre- 
gen, Hagel oder Sturmböen sind für kurzfristige Präventionsmaßnahmen bis hin 
zur Evakuierung von Menschen unerlässlich. Die dynamische Entwicklung von 
konvektiven Zellen während instabiler Wetterlagen führt oftmals zu einer erheb- 
lichen Diskrepanz zwischen den Echtzeit-Vorhersagen der Wetterdienste und 
den beobachteten Wetterbedingungen. Daten des Zellverfolgungsalgorithmus 
KONRAD des Deutschen Wetterdienstes werden mit COSMO-EU Modellana- 
lysen kombiniert, um den Lebenszyklus von Gewittern in Deutschland und den 
Einfluss der atmosphärischen Umgebungsbedingungen zu analysieren sowie 
Verfahren aus der Statistik und dem Maschinellen Lernen zur Vorhersage der 
Zellgröße und Lebensdauer zu entwickeln und zu evaluieren. 


ISBN 978-3-7315-1182-3 
ISSN 0179-5619 
ISBN 978-3-7315-1182-3 
Gedruckt auf FSC-zertifiziertem Papier 3"1783731'511823'> 


